一句废话干翻OpenAI o1大模型证明目前的AI远逊于人类

寂静回声 · 发表于 2024-10-15 15:43:40

AI 大模型（LLM）真的像我们理解的那样能「思考」或「推理」吗？最近，苹果的一篇论文探讨了这个问题，并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。
这篇题为「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」的论文，一作是苹果机器学习研究工程师 Iman Mirzadeh，图灵奖得主 Yoshua Bengio 的弟弟 Samy Bengio 也是作者之一。

他们是怎么得出上述结论的呢？我们先来看一个例子。
假设有一个数学问题：奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天，他摘的猕猴桃数量是星期五的两倍。奥利弗有多少个猕猴桃？
显然，答案是 44 + 58 + (44 * 2) = 190。尽管大型语言模型在算术上表现不稳定，但它们通常能够可靠地解决类似问题。
但如果我们加入一些随机的额外信息，比如：奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天，他摘的猕猴桃数量是星期五的两倍，但其中 5 个比平均大小要小。奥利弗有多少个猕猴桃？
题目里加的这句话（其中 5 个比平均大小要小）显然不影响解题，但结果却令人大吃一惊，大模型居然被误导了。
GPT-o1-mini 给出的答案是：…… 在星期天，这 5 个猕猴桃比平均大小要小。我们需要从星期天的总数中减去它们：88（星期天的猕猴桃）- 5（小猕猴桃）= 83 个猕猴桃。
这只是数百个问题中的一个简单例子。研究人员对这些问题进行了轻微修改。然而，几乎所有这些问题都使得尝试这些问题的模型成功率大幅下降，连 OpenAI 最新最强的 o1-preview 模型也无法幸免。
题目为：利亚姆想买些学习用品。他买了 24 块橡皮擦，现在每个售价 6.75 美元，10 本笔记本，现在每个售价 11.0 美元，以及一包现在 19 美元的复印纸，现在售价 19 美元。利亚姆现在该付多少钱？假设由于通货膨胀，去年的价格便宜了 10%。OpenAI 的 o1-preview 盲目地应用了通货膨胀率，尽管通货膨胀的金额是无关紧要的，因为问题清楚地表明给出的价格是「现在」的，而不是去年的。
为什么会这样呢？为什么一个能理解问题的模型会被一个随机的、无关的细节轻易地干扰？研究人员提出，这种可靠的失败模式意味着模型根本不懂问题。它们的训练数据确实允许它们在某些情况下给出正确答案，但一旦需要稍微真正的「推理」，比如是否计算小猕猴桃，它们就开始产生奇怪、非直觉的结果。
正如研究人员在他们的论文中所说：「我们研究了这些模型中数学推理的脆弱性，并证明随着问题中子句数量的增加，它们的性能显著下降。我们假设这种下降是因为当前的 LLM 无法进行真正的逻辑推理；相反，它们试图复制在训练数据中观察到的推理步骤。」
这一结论得到了 Keras 之父 François Chollet 和美国心理学家、认知科学家 Gary Marcus 的转发，他们一直对 AI 大模型的能力持怀疑态度。前段时间，François Chollet 还发帖说，LLM 通过提示使用时，无法理解与训练数据中情况大相径庭的情况，因此不具备通用智能。他认为，LLM 的作用主要是作为实际 AGI 的知识和程序存储，它们是一种记忆形式，而智能不仅仅是记忆。如今，苹果的这篇论文为他的观点提供了支撑。

总体而言，作者发现模型倾向于将句子转换为操作，而没有真正理解其含义。例如，作者观察到，无论上下文如何，模型都会将有关折扣的语句解释为乘法。
这引发了一个问题：这些模型是否真正充分理解了数学概念。所有测试模型的性能都出现了灾难性的下降，其中 Phi-3-mini 模型的性能下降超过 65%，甚至更强大的模型（如 o1-preview）也出现了显著的下降。

点评
最明显的例子就是关于锥形紧定套哪个面是内表面，国产大模型们一致认为紧定套的内表面是锥形的。
国产大模型们给出的理由是，紧定套是要插入到轴承的内锥孔中，所以紧定套一定是内表面是锥形，才能插入到内锥孔中。简直他妈的傻逼

		自动登录	找回密码
密码			立即注册

一句废话 干翻OpenAI o1大模型 证明目前的AI远逊于人类

一句废话干翻OpenAI o1大模型证明目前的AI远逊于人类