机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 92|回复: 0

大模型只是“复读机“

[复制链接]

2万

主题

2万

帖子

18万

积分

超级版主

Rank: 8Rank: 8

积分
182435
发表于 前天 21:22 | 显示全部楼层 |阅读模式
现如今AI大模型已经成为人们茶余饭后谈论的热门话题,但是不知道你有没有发现,虽然AI大模型如此强大,但是整来整去就是生成个发言稿啊,做个PPT啊之类的。

高级一点的还能生成个图片或者短视频之类的,没听说哪个科研或生产制造行业利用AI大模型取得了突破性成果的。
光明电力大模型号称国内首个千亿级多模态电力行业大模型,但是我们看到的还是智能写作、会议助手、PPT辅助生成等办公辅助功能。
没听说用于电网建模仿真、绝缘结构设计的,负荷预测算是大模型比较实际的应用。
至于电网调度,大模型倒是能给出一个看似像样的结果,但是敢不敢放手交给大模型操作就看各位的胆量了。
这就涉及到老生常谈的AI可解释性问题了。

大模型并非真正拥有推理能力,只是在复述学习过的答案。

核心发现:
几乎所有知名AI模型(ChatGPT、Claude、Gemini、DeepSeek等)在改动后的题目上表现一塌糊涂。
本来答对率有80%,一改就掉到20%多,甚至更低。
模型常常“不看清题目”,还是用老套路答题。
这些模型实际上是“复述训练中见过的解题模板”,而非基于输入条件真正进行语义理解与逻辑推理。

例如:
问题改了一个词(如将“相向而行”改为“相背而行”),模型仍套用原来的解法,导致错误回答。、
在“无解问题”中,绝大多数模型强行生成错误答案,无法识别问题本身不可解。
研究人员试过很多办法让AI“别套模板”:
加提示语:“请严格看题”
给几个类似例子做参考
强行告诉它:“题目没有错,按字面理解”
让AI思考得更“长一点”(Chain of Thought)
结果:都只能小幅提升,效果仍然不理想!
论文地址:https://arxiv.org/pdf/2504.00509



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-4-4 03:50 , Processed in 0.096677 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表