尽管大模型 hype 热度不减,但在从事 AI 研究的计算机科学家们看来,即使是最先进的 AI 聊天机器人也会产生明显的错误,这与绝大多数科学应用所要求的精度标准根本不符。为此,关于可扩展性的未来以及如何克服阻碍 LLM 扩展的“壁垒”(wall),一直争论不休。
研究团队通过“导数”的例子进行了说明。从形式上看,指数的符号变化预示着“壁垒”的出现:此时,即使投入更多计算资源,准确性不仅得不到提升,反而可能显著下降。这听起来虽然矛盾,但却是合理的结果,因为它反映了那些在“壁垒”阈值以下未显现、却在超过阈值后开始起作用的负面效应。
研究团队表示,他们提出的一系列思考共同暗示了令人警惕的发展路径——“退化式 AI”,即灾难性地积累错误与不准确性,尤其容易发生在使用合成数据训练的 LLM 之中。
“尽管我们完全无意去‘唱衰’任何 AI 发展,但根据文中提出的理论分析,有理由认为退化式 AI 的情景不仅是可能的,甚至在某种意义上是不可避免的。”
他们将退化式 AI 的因果链条表示如下:小扩展指数(SSE)是非高斯波动(NGF)的“确凿证据”;非高斯波动引发了一种异常的不确定性韧性(RoU),从而导致模型无法准确表达数据分布的“尾部”信息,最终引发信息灾难(IC)。
数据常被误认为等同于信息,这显然是不正确的。实际上,有多种机制表明,数据的增加有时反而会导致信息量的减少,例如当数据之间存在冲突,或被恶意注入错误信息(如假新闻、数据投毒)时,就可能导致“信息减少”。
当前的扩展指数已经很小,但依然为正值,这说明行业尚未进入“数据越多信息越少”的退化区间。然而,正如本文多次强调的,这种低指数意味着其正处于“极度收益递减”的阶段。
研究团队认为,如果我们在没有理解和洞察的前提下,仅靠蛮力和不可持续的算力扩张推进 AI 发展,那么 退化式 AI 很可能成为现实。