在这个问题上全球大模型都成了废物

寂静回声 · 发表于 2024-7-17 14:07:07

一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大？记者测试了12个大模型，有8家答错。答对的大模型解题都比较相似，但答错的模型则各有各的逻辑和表达。例如全球公认第一梯队的大模型ChatGPT回复称，小数点后面的数字“11大于9”，因此9.11大。

有人提出，大模型回答错误可能是语境问题。比如从软件版本迭代的语境来说，9.11可能就会比9.9版本更大。因此记者加上限定词“从数学上”比较，ChatGPT仍然回答错误。同时，对于答错的大模型记者进一步追问或者否认，几乎所有大模型都承认自己之前回答错误，并给出了正确答案。

实际上，如果追根溯源，引发这一问题的是上周末国内一个综艺相关的热搜。节目中，两名歌手的得票率分别是13.8%和13.11%，有网友质疑排名有问题，认为13.11%大于13.8%。随后，关于13.8和13.11大小比较的话题冲上热搜。

为什么号称智能的大模型答不好小学生数学题？今年6月，7个大模型在高考测试中语文和英语考试水平普遍不错，但数学这科全不及格，最高分也只有75分。老师们发现，大模型的主观题回答相对凌乱，且过程具有迷惑性，甚至出现过程错误但得到正确答案的情况。这意味着，大模型的公式记忆能力较强，但是无法在解题过程中灵活应用。

一些行业人士原因归结于大语言模型的架构问题，大语言模型往往是通过预测下一个词的监督学习方式进行训练。简单来说，向大模型输入大规模的文本数据集，模型会根据文本来预测下一个词的概率分布。通过不断比较预测和实际的结果，语言模型逐步掌握了语言规律，学会了预测并生成了下一个词。

一位算法工程师认为，生成式的语言模型更像文科生而不是理科生。语言模型在这样的数据训练中学到的是相关性，而数学推理更需要的是因果性，数学是高度抽象和逻辑驱动的。这意味着大模型除了学习世界知识外，还应该有思维的训练，从而具备推理演绎能力。

此外，大部分行业人士都会想到分词器的数字切分问题。技术人员解释，早期分词器经常把连续的若干数字切在一起形成一个Token，比如“13579”，可能被切成3个Token ,“13”是一个，“57”是一个，“9”是一个。哪些数字被切在一起，取决于数据集合里的统计情况。在这种不确定情况下，要想做多位数字数值计算，是非常困难的。

不过，上述问题也正在慢慢被解决，在思维能力上更核心的可能还是训练语料的问题。大语言模型主要通过互联网的文本数据进行训练，而这些数据中数学问题相对较少。值得一提的是，大模型的复杂推理能力尤为重要，这关乎可靠性和准确性，是大模型在金融、工业等场景落地需要的关键能力。

		自动登录	找回密码
密码			立即注册

在这个问题上 全球大模型都成了废物

本帖子中包含更多资源

在这个问题上全球大模型都成了废物