大模型AI因其训练方法永远做不到发现新问题

寂静回声 · 发表于 2026-6-10 12:10:52

现在所有会“推理”的AI，背后用的训练方法叫RLVR，可验证奖励的强化学习。
它的工作方式很简单，给模型一道数学题。它生成一条推理路径。最后给出一个答案。
只有最后一个答案不对，会被验证。中间走的路、用的方法、推理的链条，没有人管，只看最后那一步。
听起来很合理，我们教小孩子做题不也这样。对就是对，错就是错。
但是这种训练方式有一个被写进数学的副作用，二零二五年五月，研究者们给它起了一个名字。
嫡坍缩，一个模型刚开始有很多种可能的回答，它可能这样想，可能那样想。这种“可能性的分散程度”，技术上叫熵。
RLVR训练几步之后，熵急剧下降，模型的回答迅速收敛到几条“最容易拿到奖励”的路径上。
它变得非常自信，但是它变笨了，因为它不再探索，它只在自己最熟、最有把握的那几条路上跑，新的路它走不进去。
研究者用了一个比喻，它像一只被关在熟悉花园里的鸟，园子里所有花它都飞过。但是园子之外的世界，它的翅膀已经不会用了。
这是一个技术现象，但是它本来还是个工程问题，熵坍缩了就想办法把它拉回来嘛。
直到二零二五年七月，事情变得不再是工程问题。
斯坦福的吴方、崔艺珍和几位合作者，发了一篇论文，标题叫《看不见的牵绳：为什么RLVR可能逃不出它的原点》。
任何一个用RLVR训练出来的模型，在数学上，不可能采样出“在初始分布里概率为零”的解。
一个AI模型在最开始训练完base阶段的时候，已经有一个概率分布。所有它“想得到”的答案，在这个分布里。
RLVR做的事，不是把这个分布扩大，而是在分布内部重新分配权重。
让对的答案概率变高，错的答案概率变低。
它能让模型在分布内找得更准，但是它没法让模型走出分布。
任何在初始分布里概率为零的东西，模型从来没想过、训练数据里没有、概念上完全全新的东西，RLVR永远到不了。
这就是那条看不见的牵绳，模型可以在牵绳允许的范围内跑得越来越快、越来越准。但是绳子有多长，从一开始就定死了。
这件事跟前面那篇直觉文章里波尔加说的话，对上了。
她当时说，AI 给年轻人省掉了百分之九十的苦练。但是那百分之九十里，藏着百分之十的神级洞察。省掉了百分之九十，他们也拿不到那百分之十了。
那时候百分之十是什么，没人说清。
百分之十就是把概率为零的东西，拉进概率为正的能力。
Gowers两小时做完博士论文研究，是真的。
但是他做的事，是把已经在概率分布里、只是概率较低的解挖出来。AI的效率把它快速找到了。
把人类已经走过的路压缩到两个小时，这叫压缩。
Ryu三天破Nesterov的悬案，也是真的。

那什么不是压缩？Nesterov一九八三年最初看着那个问题、想到那个方向的瞬间。
那个瞬间发生的事，是从一个“凸优化领域还没人这么想”的状态，到“现在有人这么想了”的状态。
是把概率为零的东西，拉进概率为正，是开创新东西。
牛顿看着苹果落地，想到苹果和月亮可能受同一种力，那一刻之前，“地上的力和天上的力是同一种”这个想法，在人类的概念空间里概率为零。那一刻之后，概率不再为零。
爱因斯坦想到“我如果以光速跑步，光看起来是什么样”，那一刻之前，“时间可以随观察者变快变慢”在物理学家的概念空间里概率为零。那一刻之后，物理学换了一套底层。
这些瞬间不是从已知里挖出来的。是把不存在的东西，第一次拉进世界中。
吴方和崔艺珍的论文证明的事是：
RLVR这条技术路线，在数学上，注定做不到开创新东西，它只能让AI在已知里压缩到极致。
当下所有真正“会推理”的AI，核心都是RLVR。
学术界正在研究的替代方案，有的还在论文里，有的有效果但是不显著。

一个数学家花二十年读论文、卡壳、走错路、做错证明，这一切看起来是浪费。但是那个“浪费”的过程，让他的大脑里慢慢积累起一种东西。
让他在某一天看着一个谁都看过的方程，突然想到一个谁都没想过的方向。
那一刻，他把概率为零的东西，拉进了概率为正。
AI做不到这件事。不是因为AI不够强。是因为它的训练方法，在数学上把它锁在了初始分布里。
它可以两小时做完博士论文。它可以三天破四十年的悬案。
它做不到的是，发现一个新问题。
Nesterov提出那个问题的瞬间，AI做不了。
牛顿想到地上和天上是同一种力的瞬间，AI做不了。
爱因斯坦想到光速和时间相对的瞬间，AI做不了。

		自动登录	找回密码
密码			立即注册

大模型AI因其训练方法 永远做不到发现新问题

浏览过的版块

大模型AI因其训练方法永远做不到发现新问题