机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 97|回复: 0

大模型AI因其训练方法 永远做不到发现新问题

[复制链接]

2万

主题

3万

帖子

21万

积分

超级版主

Rank: 8Rank: 8

积分
219303
发表于 7 天前 | 显示全部楼层 |阅读模式
现在所有会“推理”的AI,背后用的训练方法叫RLVR,可验证奖励的强化学习。
它的工作方式很简单,给模型一道数学题。它生成一条推理路径。最后给出一个答案。
只有最后一个答案不对,会被验证。中间走的路、用的方法、推理的链条,没有人管,只看最后那一步。
听起来很合理,我们教小孩子做题不也这样。对就是对,错就是错。
但是这种训练方式有一个被写进数学的副作用,二零二五年五月,研究者们给它起了一个名字。
嫡坍缩,一个模型刚开始有很多种可能的回答,它可能这样想,可能那样想。这种“可能性的分散程度”,技术上叫熵。
RLVR训练几步之后,熵急剧下降,模型的回答迅速收敛到几条“最容易拿到奖励”的路径上。
它变得非常自信,但是它变笨了,因为它不再探索,它只在自己最熟、最有把握的那几条路上跑,新的路它走不进去。
研究者用了一个比喻,它像一只被关在熟悉花园里的鸟,园子里所有花它都飞过。但是园子之外的世界,它的翅膀已经不会用了。
这是一个技术现象,但是它本来还是个工程问题,熵坍缩了就想办法把它拉回来嘛。
直到二零二五年七月,事情变得不再是工程问题。
斯坦福的吴方、崔艺珍和几位合作者,发了一篇论文,标题叫《看不见的牵绳:为什么RLVR可能逃不出它的原点》。
任何一个用RLVR训练出来的模型,在数学上,不可能采样出“在初始分布里概率为零”的解。
一个AI模型在最开始训练完base阶段的时候,已经有一个概率分布。所有它“想得到”的答案,在这个分布里。
RLVR做的事,不是把这个分布扩大,而是在分布内部重新分配权重。
让对的答案概率变高,错的答案概率变低。
它能让模型在分布内找得更准,但是它没法让模型走出分布。
任何在初始分布里概率为零的东西,模型从来没想过、训练数据里没有、概念上完全全新的东西,RLVR永远到不了。
这就是那条看不见的牵绳,模型可以在牵绳允许的范围内跑得越来越快、越来越准。但是绳子有多长,从一开始就定死了。
这件事跟前面那篇直觉文章里波尔加说的话,对上了。
她当时说,AI 给年轻人省掉了百分之九十的苦练。但是那百分之九十里,藏着百分之十的神级洞察。省掉了百分之九十,他们也拿不到那百分之十了。
那时候百分之十是什么,没人说清。
百分之十就是把概率为零的东西,拉进概率为正的能力。
Gowers两小时做完博士论文研究,是真的。
但是他做的事,是把已经在概率分布里、只是概率较低的解挖出来。AI的效率把它快速找到了。
把人类已经走过的路压缩到两个小时,这叫压缩。
Ryu三天破Nesterov的悬案,也是真的。

那什么不是压缩?Nesterov一九八三年最初看着那个问题、想到那个方向的瞬间。
那个瞬间发生的事,是从一个“凸优化领域还没人这么想”的状态,到“现在有人这么想了”的状态。
是把概率为零的东西,拉进概率为正,是开创新东西。
牛顿看着苹果落地,想到苹果和月亮可能受同一种力,那一刻之前,“地上的力和天上的力是同一种”这个想法,在人类的概念空间里概率为零。那一刻之后,概率不再为零。
爱因斯坦想到“我如果以光速跑步,光看起来是什么样”,那一刻之前,“时间可以随观察者变快变慢”在物理学家的概念空间里概率为零。那一刻之后,物理学换了一套底层。
这些瞬间不是从已知里挖出来的。是把不存在的东西,第一次拉进世界中。
吴方和崔艺珍的论文证明的事是:
RLVR这条技术路线,在数学上,注定做不到开创新东西,它只能让AI在已知里压缩到极致。
当下所有真正“会推理”的AI,核心都是RLVR。
学术界正在研究的替代方案,有的还在论文里,有的有效果但是不显著。

一个数学家花二十年读论文、卡壳、走错路、做错证明,这一切看起来是浪费。但是那个“浪费”的过程,让他的大脑里慢慢积累起一种东西。
让他在某一天看着一个谁都看过的方程,突然想到一个谁都没想过的方向。
那一刻,他把概率为零的东西,拉进了概率为正。
AI做不到这件事。不是因为AI不够强。是因为它的训练方法,在数学上把它锁在了初始分布里。
它可以两小时做完博士论文。它可以三天破四十年的悬案。
它做不到的是,发现一个新问题。
Nesterov提出那个问题的瞬间,AI做不了。
牛顿想到地上和天上是同一种力的瞬间,AI做不了。
爱因斯坦想到光速和时间相对的瞬间,AI做不了。







回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2026-6-17 21:55 , Processed in 0.065096 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表