机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 55|回复: 0

生成式AI半个理解力都没有

[复制链接]

2万

主题

2万

帖子

19万

积分

超级版主

Rank: 8Rank: 8

积分
197458
发表于 昨天 10:25 | 显示全部楼层 |阅读模式
假如你被放进一个陌生的世界。你看到一些方块、开关、光点,你不知道规则,也没有任务提示。你唯一能做的,就是动手去试:推一下开关、挪动一下方块、看看会不会发生点什么。你试了几次,发现光点闪烁和按钮颜色有关;再试几次,你发现规则变了。你皱眉,重置实验,从头再来。
——这,就是人类理解世界的方式。
而最新的一篇论文告诉我们:生成式AI 还不会这样做。一项 MIT等诸多知名机构完成的论文干了一件特别聪明的事:他们设计了一个专门用来考察“生成式AI 到底懂不懂世界”的测试体系,叫 WorldTest。

在这个测试里,没有奖励分数,没有“答对/答错”的标签。生成式AI就像一个刚来到地球的外星人,被放进一个互动式的小世界。它可以自由移动、点击、观察、重启。它要靠自己的试验去发现世界的规律。接着,环境会偷偷变化:有的规则改了,有的目标不一样了。生成式AI需要用之前的经验,去推理新的情况,这才是真正的“理解考”。
你可以把它想象成一种智力体检:生成式AI不再比谁算得快,而是看谁更像一个会动脑的科学家。

研究团队招募了 517 个真人 和当下最强的三款模型——Claude 4 Sonnet、Gemini 2.5 Pro、OpenAI o3。结果堪称久违的美好结局:人类赢了,赢得漂亮。
在三个关键任务上——预测、规划、检测规则变化——人类表现全面碾压。

人类的行为有两个明显特征:一是探索更快更聪明。困惑度下降得快,说明人会逐渐聚焦,形成假设,再去验证。二是会主动重启。一旦感觉搞错了,就立刻重来。
而生成式AI呢?大多数时候就像小孩乱点屏幕。它们不会重启实验,也不会形成新假设,只是一遍又一遍“撞运气”。换句话说,它们并不懂得“试验”的意义——它们会模仿答案,但不会质疑规则。
这其实戳中了生成式AI的软肋。我们经常夸大生成式AI的“理解力”:它会写诗、会编程、能解释量子物理,看起来无所不能。但在这项测试里,它被要求面对真正陌生的世界,而不是数据里见过的样本。这时候,它的聪明就戛然而止。它能观察,却不真正“学习”;能预测,却不真正“理解”。
理解的本质,不是预测下一个词,而是察觉世界何时变了。人类的学习方式,是一种“假设—验证—修正”的循环。而生成式AI的学习方式,更多是“观察—关联—生成”。
鹦鹉能学会模仿人类说“天气真好”,但当你突然说“外面下刀子了”,它依旧重复那句老话。它学的是统计规律,不是世界模型。
论文不只是说明“人类赢了”,而是给出了一个新的衡量标准。过去我们衡量智能体靠分数、靠奖励、靠表现;现在,我们有了一个更接近认知本质的测试:你能否主动实验、能否发现变化、能否修正假设。
这就是所谓的“World Model”——世界模型。

真正聪明的系统,不是只会反应,而是会建立心智。它不仅知道“如果我这么做,结果会怎样”,更知道“如果规则变了,我该怎么重新理解”。作者把这种测试称为 “黑箱行为学” 框架,也就是说,它不看模型内部的参数结构,只看它的“外部行为”。就像心理学家研究动物智力,不拆脑子,只看它怎么应对新问题。这使得 WorldTest 成为一个很有前景的生成式AI测试标准——它可以揭示智能体是否具备“科学式学习”的能力。
这项研究给生成式AI的未来指出了一条路:想真正变得聪明,要学会 假设、怀疑、修正。这听起来很人类,但也许这才是智能的本质。
这种“理解力”并不是算法能直接训练出来的。它需要一种类似“好奇心”的机制,需要在探索中不断地提问自己:“我为什么要这样做?”“规则是不是变了?”“我还能不能解释这个世界?”
不是因为我们算得快,而是因为我们会思考;不是因为我们有更多数据,而是因为我们会怀疑数据。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-11-13 04:16 , Processed in 0.083760 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表