Math 4 - 搜索 News

研究显示大语言模型数学计算能力令人担忧

A：研究表明大语言模型仍然存在逻辑和算术错误问题。虽然它们在一些传统测试中得分很高，但那些测试数据可能已经被纳入训练数据中。ORCA测试显示，自然语言推理的进步并不能直接转化为可靠的计算能力，AI在确定性推理任务中仍有很大改进空间。

研究团队发现了一个有趣的现象：现有的AI模型在解数学题时就像被蒙住眼睛的学生，只能靠纯文字推理，无法"看到"几何关系和函数变化。这就好比让人闭着眼睛组装复杂的立体拼图，难度可想而知。更关键的是，即使那些能生成图像的AI模型，在数学图形方面也表现得相当 ...

7 小时

为了确保模型能够从状态中恢复出真实的潜在思维，而不仅仅是外部世界的某种投影，研究者建立了严格的可识别性理论。他们通过数学证明，只要在系统中引入稀疏约束，即使在复杂的现实场景中，也能从模型的可观测行为中稳定地恢复出这些隐藏的思维。

科技行者 on MSN

在人工智能的世界里，有一个看似违反常理的有趣现象正在发生。通常我们认为，大型语言模型应该比小型模型更聪明、更有能力，就像成年人比孩子更有经验和知识一样。然而，香港大学和芝加哥大学的研究团队最近发表了一项突破性研究，他们证明了一个令人惊讶的观点：在某些 ...

小黑盒游戏 on MSN

【本文由小黑盒作者@把棒棒糖改成烟于11月16日发布，转载请标明出处！】 KSCERATO："FalleN说他赢得Major时是26岁...我现在也26了，你懂的兄弟" 🇧🇷‼️ KSCERATO: "FalleN said he won the ...

十轮网科技资讯 on MSN

这项研究分析了445种不同的基准测试，这些测试被广泛用于评估AI的推理能力和编码任务的表现。研究人员发现，这些测试的结果往往无法准确反映AI模型的实际能力，部分原因在于基准测试的定义模糊，以及缺乏透明的统计方法来比较不同模型的表现。

5 天

从强基座起步的 JustRL-Nemotron-1.5B 表现更加出色，平均准确率达到 64.32%，略微超过使用课程学习的 QuestA（63.81%）。关键的差异在于，QuestA 需要完整的推理轨迹来构建 hint，还要分阶段调整提示难度；而 ...

1 天

【导读】GPT-5不再只是更聪明的模型，而是一台学会犹豫的机器。它能判断问题的难度，分配自己的思考时间，甚至决定何时该停下。OpenAI副总裁Jerry ...

Opinion

大学领导层曾担心政府针对国际学生的一系列行动——从签证限制到旅行禁令——会导致入学人数下降。但据《华盛顿邮报》报道，美国国土安全部的新数据显示出了韧性：截至10月，美国仍有130万学生持有有效签证，较去年下降不到1%。（财富中文网） ...

一些您可能无法访问的结果已被隐去。