机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 246|回复: 0

一句废话 干翻OpenAI o1大模型 证明目前的AI远逊于人类

[复制链接]

2万

主题

2万

帖子

17万

积分

超级版主

Rank: 8Rank: 8

积分
176325
发表于 2024-10-15 15:43:40 | 显示全部楼层 |阅读模式
AI 大模型(LLM)真的像我们理解的那样能「思考」或「推理」吗?最近,苹果的一篇论文探讨了这个问题,并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。
这篇题为「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」的论文,一作是苹果机器学习研究工程师 Iman Mirzadeh,图灵奖得主 Yoshua Bengio 的弟弟 Samy Bengio 也是作者之一。

他们是怎么得出上述结论的呢?我们先来看一个例子。
假设有一个数学问题:奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍。奥利弗有多少个猕猴桃?
显然,答案是 44 + 58 + (44 * 2) = 190。尽管大型语言模型在算术上表现不稳定,但它们通常能够可靠地解决类似问题。
但如果我们加入一些随机的额外信息,比如:奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍,但其中 5 个比平均大小要小。奥利弗有多少个猕猴桃?
题目里加的这句话(其中 5 个比平均大小要小)显然不影响解题,但结果却令人大吃一惊,大模型居然被误导了。
GPT-o1-mini 给出的答案是:…… 在星期天,这 5 个猕猴桃比平均大小要小。我们需要从星期天的总数中减去它们:88(星期天的猕猴桃)- 5(小猕猴桃)= 83 个猕猴桃。
这只是数百个问题中的一个简单例子。研究人员对这些问题进行了轻微修改。然而,几乎所有这些问题都使得尝试这些问题的模型成功率大幅下降,连 OpenAI 最新最强的 o1-preview 模型也无法幸免。
题目为:利亚姆想买些学习用品。他买了 24 块橡皮擦,现在每个售价 6.75 美元,10 本笔记本,现在每个售价 11.0 美元,以及一包现在 19 美元的复印纸,现在售价 19 美元。利亚姆现在该付多少钱?假设由于通货膨胀,去年的价格便宜了 10%。OpenAI 的 o1-preview 盲目地应用了通货膨胀率,尽管通货膨胀的金额是无关紧要的,因为问题清楚地表明给出的价格是「现在」的,而不是去年的。
为什么会这样呢?为什么一个能理解问题的模型会被一个随机的、无关的细节轻易地干扰?研究人员提出,这种可靠的失败模式意味着模型根本不懂问题。它们的训练数据确实允许它们在某些情况下给出正确答案,但一旦需要稍微真正的「推理」,比如是否计算小猕猴桃,它们就开始产生奇怪、非直觉的结果。
正如研究人员在他们的论文中所说:「我们研究了这些模型中数学推理的脆弱性,并证明随着问题中子句数量的增加,它们的性能显著下降。我们假设这种下降是因为当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤。」
这一结论得到了 Keras 之父 François Chollet 和美国心理学家、认知科学家 Gary Marcus 的转发,他们一直对 AI 大模型的能力持怀疑态度。前段时间,François Chollet 还发帖说,LLM 通过提示使用时,无法理解与训练数据中情况大相径庭的情况,因此不具备通用智能。他认为,LLM 的作用主要是作为实际 AGI 的知识和程序存储,它们是一种记忆形式,而智能不仅仅是记忆。如今,苹果的这篇论文为他的观点提供了支撑。

总体而言,作者发现模型倾向于将句子转换为操作,而没有真正理解其含义。例如,作者观察到,无论上下文如何,模型都会将有关折扣的语句解释为乘法。
这引发了一个问题:这些模型是否真正充分理解了数学概念。所有测试模型的性能都出现了灾难性的下降,其中 Phi-3-mini 模型的性能下降超过 65%,甚至更强大的模型(如 o1-preview)也出现了显著的下降。

点评
最明显的例子就是关于锥形紧定套哪个面是内表面,国产大模型们一致认为紧定套的内表面是锥形的。
国产大模型们给出的理由是,紧定套是要插入到轴承的内锥孔中,所以紧定套一定是内表面是锥形,才能插入到内锥孔中。简直他妈的傻逼

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2024-12-24 07:09 , Processed in 0.083288 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表