机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 79|回复: 0

大模型的上限来自预先训练的数据

[复制链接]

2万

主题

2万

帖子

18万

积分

超级版主

Rank: 8Rank: 8

积分
182280
发表于 前天 21:07 | 显示全部楼层 |阅读模式
不久前有一个著名问题,“strawberry”有几个r,不少大模型都答错了,说2个,实际是3个。后来大模型打了补丁,这种问题似乎解决了。

现在问题又变了个形式,对于字符串“~~~~~~~~~~~~~~~~~~~~~~~~~~~p”,它有多少个'~'符号?(实际是27个。)问kimi,长思考模式,它说是15个。问deepseek R1满血版,深度思考,过了很长时间,居然弄死机了,没给回答。
降低些难度,问:对于字符串“111111111p”,它有多少个'1'符号?这个kimi答对了。再问,对于字符串“########p",它有多少个’#’符号?kimi也答对了。再问,对于字符串“#################################p",它有多少个”#“符号?嘿嘿,kimi又说是15个。
所以,kimi像是对几个字符能数清楚,但多了就答15个,多了就不会数数。

再问deepseek,对于字符串“########p",它有多少个’#’符号?这回deepseek答对了,8个。
再问它,对于字符串“#################################p",它有多少个”#“符号?推理了一通之后,回答是35个,字符串总长是36,减掉一个p,是35个。这听上去很象回事啊,难道deepseek会?但实际上,正确答案是33个。

为什么会这样?这是因为,“计数”是一个抽象能力,人类会了就是会了。对问题进行各种改头换面,人类都能够按正确的计数办法,数手指头那样,算出个数。我们可以说,人类掌握了“通用计数”能力,这大家都有信心。
大模型其实只会根据训练样本,算单词token之间的关联概率,会的招其实很有限。人类用海量的语料,教会了他很多“套路”。在计数上,也安排了一个套路。例如,算单词里r的个数,把字母一个个排列出来,能算清。

但是,人类只能用语料教基于统计的套路,教不了“计数”这个抽象能力。符号一多,它的套路就崩了。
从这么简单的“计数”能力看,大模型严重依赖训练语料教的套路,而非领悟到人类共同的计数能力。研发者只能打补丁去教它计数,但这种补丁肯定是打不完的,因为提问者会有各种变形办法来考验它。它如果没有实质掌握“计数”这个抽象能力,加再多素材也会被考倒。
可以说大模型的能力是有严重缺陷的,用现在这个统计架构,学不会“计数”这个抽象能力。






回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-4-2 09:35 , Processed in 0.082532 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表