格隆汇11月19日|在本月初离开Meta后,现代AI基础设施领域最具影响力的人物之一Soumith Chintala宣布正式加入前OpenAI技术长Mira Murati创办的初创公司Thinking Machines ...
北京时间11月14日,据彭博社报道,知情人士称,OpenAI前首席技术官(CTO)米拉穆拉蒂(Mira Murati)建立的AI创业公司Thinking Machines Lab正就新一轮融资进行早期谈判,估值约达500亿美元。
机器之心报道机器之心编辑部即便是最详细的模型规范,也存在内部矛盾、粒度不足与解释歧义。现如今,LLM 正越来越多地受到模型规范的约束,这些规范为模型的行为准则与伦理边界提供了清晰定义。它们构成了 Constitutional AI(宪法式 AI) 与 ...
与此同时,这位 PyTorch 之父也更新了自己的个人介绍,正式官宣加入 TML,并表示正在这家估值已达 500 亿美元的创业公司「创造新东西(Building new things)」 。 根据 Chintala 离职 me ta 前的推文,他是在 ...
近期,专注于人工智能研究的技术团队Thinking Machines Lab(TML)发布了一篇技术博客,详细阐述了其研发的“在策略蒸馏”训练方法。该方法通过融合强化学习的纠错机制与监督微调的密集反馈,显著提升了小型语言模型在数学推理和个性化助手场景中的表现。
在策略蒸馏是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。 刚刚,不发论文、爱发博客的 Thinking Machines Lab (以下简称 TML)再次更新,发布了一篇题为《在策略蒸馏》的博客。 在策略蒸馏(on-policy distillation)是一种将强化学习 (RL) 的 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果