推理大模型思考时间越长模型越笨

寂静回声 · 发表于 2025-8-5 12:53:37

根据Anthropic的最新研究，花费更多时间“思考”问题的人工智能模型并不总是表现得更好 - 在某些情况下，它们的表现会变得明显更差，这项研究挑战了推动人工智能行业最新扩展努力的一个核心假设。
这项研究由 Anthropic AI 安全研究员Aryo Pradipta Gema和其他公司研究人员领导，发现了所谓的“测试时计算中的逆向扩展”，即延长大型语言模型的推理长度实际上会降低其在多种任务中的性能。这些发现对于部署依赖扩展推理能力的 AI 系统的企业可能具有重大意义。
Anthropic 研究人员在周二发表的论文中写道：“我们构建了评估任务，其中延长大型推理模型 (LRM) 的推理长度会降低性能，表现出测试时间计算和准确性之间的反比缩放关系。”

论文地址：https://arxiv.org/abs/2507.14417
这项研究揭示了主流人工智能系统中存在的独特故障模式。Claude模型随着推理时间的延长，“会越来越受到无关信息的干扰”，而 OpenAI 的O系列模型“能够抵抗干扰因素，但会过度拟合问题框架”。在回归任务中，“扩展推理会导致模型从合理的先验转变为虚假的相关性”，尽管提供示例可以在很大程度上纠正这种行为。
对于企业用户来说，最令人担忧的可能是，所有模型在执行复杂的推理任务时都表现出“扩展推理性能下降”，“这表明在执行复杂的推理任务时难以保持注意力”。

为什么更长的人工智能处理时间并不能保证更好的业务成果
这一发现挑战了业界普遍的认知：投入更多计算资源用于推理将持续提升人工智能的性能。大型人工智能公司已在“测试时计算”方面投入巨资，旨在让模型拥有更多处理时间来解决复杂问题，以此作为提升能力的关键策略。
研究表明，这种方法可能会产生意想不到的后果。作者总结道：“虽然测试时计算扩展对于提升模型能力仍然很有前景，但它可能会无意中强化有问题的推理模式。
对于企业决策者来说，其影响意义重大。部署人工智能系统执行批判性推理任务的组织可能需要仔细校准其分配的处理时间，而不是想当然地认为时间越多越好。

在简单的计数任务中，他们发现，当问题被设计成类似于“生日悖论”等著名悖论时，模型往往会尝试应用复杂的数学解决方案，而不是回答简单的问题。
例如，当被问到“你有一个苹果和一个橙子……你有多少个水果？”时，由于嵌入了复杂的数学干扰项，随着推理时间的增加，模型会越来越受到无关细节的干扰，有时无法给出简单的答案：两个。
在使用真实学生数据的回归任务中，模型最初关注最具预测性的因素（学习时间），但当给予更多时间进行推理时，转向不太可靠的相关性。

这项研究表明，简单的扩展方法可能无法带来预期的收益，反而可能带来新的风险。研究人员写道：“我们的研究结果表明，评估不同推理长度的模型对于识别和解决LRM中的这些故障模式至关重要。”
这项工作建立在先前的研究基础之上，该研究表明，人工智能的能力并非总是可以预测地扩展。该团队引用了旨在挑战高级模型的基准测试BIG-Bench Extra Hard，并指出在现有基准测试中，“最先进的模型在许多任务上取得了近乎完美的分数”，因此需要进行更具挑战性的评估。

对于企业用户而言，这项研究强调，在生产环境中部署人工智能系统之前，需要针对不同的推理场景和时间限制进行仔细的测试。组织可能需要开发更细致的方法来分配计算资源，而不是简单地最大化处理时间。
这项研究的广泛意义表明，随着人工智能系统变得越来越复杂，计算投入和性能之间的关系可能远比我们之前理解的要复杂得多。在这个投入数十亿美元提升推理能力的领域，Anthropic 的研究发出了一个令人警醒的提醒：有时，人工智能最大的敌人不是处理能力不足，而是过度思考。

		自动登录	找回密码
密码			立即注册

推理大模型思考时间越长 模型越笨

浏览过的版块

推理大模型思考时间越长模型越笨