大模型的上限来自预先训练的数据

寂静回声 · 发表于 2025-3-31 21:07:18

不久前有一个著名问题，“strawberry”有几个r，不少大模型都答错了，说2个，实际是3个。后来大模型打了补丁，这种问题似乎解决了。

现在问题又变了个形式，对于字符串“~~~~~~~~~~~~~~~~~~~~~~~~~~~p”，它有多少个'~'符号？（实际是27个。）问kimi，长思考模式，它说是15个。问deepseek R1满血版，深度思考，过了很长时间，居然弄死机了，没给回答。
降低些难度，问：对于字符串“111111111p”，它有多少个'1'符号？这个kimi答对了。再问，对于字符串“########p"，它有多少个’#’符号?kimi也答对了。再问，对于字符串“#################################p"，它有多少个”#“符号？嘿嘿，kimi又说是15个。
所以，kimi像是对几个字符能数清楚，但多了就答15个，多了就不会数数。

再问deepseek，对于字符串“########p"，它有多少个’#’符号?这回deepseek答对了，8个。
再问它，对于字符串“#################################p"，它有多少个”#“符号？推理了一通之后，回答是35个，字符串总长是36，减掉一个p，是35个。这听上去很象回事啊，难道deepseek会？但实际上，正确答案是33个。

为什么会这样？这是因为，“计数”是一个抽象能力，人类会了就是会了。对问题进行各种改头换面，人类都能够按正确的计数办法，数手指头那样，算出个数。我们可以说，人类掌握了“通用计数”能力，这大家都有信心。
但大模型其实只会根据训练样本，算单词token之间的关联概率，会的招其实很有限。人类用海量的语料，教会了他很多“套路”。在计数上，也安排了一个套路。例如，算单词里r的个数，把字母一个个排列出来，能算清。

但是，人类只能用语料教基于统计的套路，教不了“计数”这个抽象能力。符号一多，它的套路就崩了。
从这么简单的“计数”能力看，大模型严重依赖训练语料教的套路，而非领悟到人类共同的计数能力。研发者只能打补丁去教它计数，但这种补丁肯定是打不完的，因为提问者会有各种变形办法来考验它。它如果没有实质掌握“计数”这个抽象能力，加再多素材也会被考倒。
可以说大模型的能力是有严重缺陷的，用现在这个统计架构，学不会“计数”这个抽象能力。

		自动登录	找回密码
密码			立即注册

大模型的上限来自预先训练的数据

浏览过的版块