国产大模型快答时算数能力为零

寂静回声 发表于 2026-5-31 10:17:44

在网上看到一个帖子：“300+140=460对吗？”
我以为他在钓鱼，盯着屏幕笑了十秒。这在任何一个正常的人类大脑里，答案都毫无疑问是440。一个2026年的前沿大模型，怎么能算出460来？还能觉得它“对”？
然而试过国产大模型，在快速回答模式下，大部分沦陷。
其中千问在快速模式下，蠢出天际了。
https://s3.bmp.ovh/2026/05/31/fBpRijMy.jpg
https://s3.bmp.ovh/2026/05/31/vYEcP6Pg.jpg
https://s3.bmp.ovh/2026/05/31/apo0d5du.jpg
https://s3.bmp.ovh/2026/05/31/MDyrypiV.jpg
即使是本地部署，千问照样是个弱智
https://s3.bmp.ovh/2026/05/31/6akvVoye.jpg

那其它国产大模型在不使用思考模式时也这么拉垮吗
https://s3.bmp.ovh/2026/05/31/i4yC3wNQ.jpg
结果智谱大模型在快答时也是如此弱智
https://s3.bmp.ovh/2026/05/31/udVzLjAw.jpg
https://s3.bmp.ovh/2026/05/31/2fwqioWc.jpg
不管是哪里的大模型，只要不启用思考模式，那基本是白痴一个。
但如果事事启用思考模式才能降低幻觉，那更是白痴一个。
https://s3.bmp.ovh/2026/05/31/zrxwJ49U.jpg
网上那么多豆包胡说八道的例子就是因其是运行在快速回答模式下，快答是AI背语料，不会核实语料对错。
而且字节为提高日活，让豆包AI极其谄媚，胡说八道程度更上一层楼。
而且至于中英文提问导致的回答质量不一样，那很正常。
因为简中网就特别垃圾了，这导致中文语料库也特别垃圾。

页: [1]

机械荟萃山庄's Archiver

国产大模型快答时算数能力为零