递归语言模型AI也终究神话破灭

寂静回声 · 发表于 3 天前

最近一篇关于递归语言模型的论文《Recursive Language Models》引发了热议。有人称之为“AI记忆的终极解决方案”，也有人认为这不过是“换了马甲的RAG”。真相究竟如何？

先说背景。大模型的上下文窗口一直是个老大难问题。厂商们比拼谁的窗口更大——“我们支持200万token！”“我们有1000万！”
但实际上，超过10万token后，模型就开始“健忘”，业内称之为“上下文腐烂”。

RAG本应是救星：检索相关片段，塞进提示词，问题解决。但RAG有个致命缺陷——它无法处理需要同时查看文档多个部分的任务。

递归语言模型的思路确实巧妙：与其把海量token硬塞给模型，不如把提示词作为变量加载到Python环境中，让模型自己写代码去搜索、切片、递归调用。
这其实模拟了人类处理长文档的方式——你不会每次都从头读到尾，而是用搜索、跳转、做笔记。RLM让AI也能这样“导航”信息。
论文数据确实亮眼：在多文档研究任务上，基础模型得分为零（根本装不下），加上RLM后达到91%。在信息密集型推理上，从0.04%跃升至58%。
更有意思的是，模型自己“悟”出了策略：用正则表达式过滤上下文、把任务拆成递归子调用、通过自我查询验证答案——这些都是涌现行为，没有专门训练。
成本方面也有惊喜。虽然有些递归路径会变贵，但中位数运行成本反而更低——因为它只读需要的内容，而不是一口气吞下千万token。

但争议也随之而来。
首先是“完美记忆”的说法过于夸张。正如Sebastian Raschka指出的，这本质上是把提示词和任务拆分成子任务，模型在每次子调用中仍然可能出错。
更尖锐的质疑来自多位从业者：这不就是带工具调用的智能体循环吗？Claude Code早就这么干了。有人直接说“RLM就是RAG”——只不过用MCP驱动，而非向量数据库的语义检索。
这个批评有一定道理。从本质上看，RLM确实是把上下文问题转化为搜索问题，而非真正的压缩或记忆。它依赖模型生成可靠的检索代码，而当前模型在这方面并不完美——可能写出糟糕的正则、陷入无限递归、或者遗漏关键片段。
还有人提出实际应用的顾虑：金融数据集的准确性问题、REPL环境的安全沙箱问题、以及顺序执行带来的延迟成本。

RLM代表了一种思路转变——从“如何塞进更多token”到“如何让AI智能地导航无界信息”。
但把它包装成“记忆革命”或“RAG终结者”，未免言过其实。
真正的突破，或许要等到递归机制被直接融入训练目标，而不只是推理时的脚手架。
x.com/rryssf_/status/2010699140431503692

		自动登录	找回密码
密码			立即注册

递归语言模型AI也终究神话破灭

浏览过的版块