国产大模型已经走入加拉帕戈斯时刻

寂静回声 · 发表于 2024-9-18 15:07:02

短短两年时间：大模型的战争，就从 GPT 一马当先，到国产大模型百模大战，再到行业格局固定，只剩大模型五虎和几个互联网大厂。
在此期间，伴随模型大小一同膨胀的，则是算力、人才、电力、数据中心无数基础资源的不断加码。于是，全球范围内，英伟达的股价一路披荆斩棘，一年暴涨 7 倍，市值超越苹果；各大机构大模型团队，从研究员到助理，从教授到学生，接到的猎头电话，频率甚至超过了来自移动联通的套餐升级问候。
然而，参数的加码是无限的，资源是有限的，热潮当中，长期无限制的基础模型竞赛，真的是一个正确的方向吗？
加拉帕戈斯陷阱，指的是加拉帕戈斯群岛由于千万年来与世隔绝，产生了与大陆极为不同的稳定生态系统，可一旦面对来自外来物种入侵，就面临被淘汰的危险。
而在日本的商业社会中，日本电装最早在 1994 年发明二维码，结果发扬光大的却是中国的微信、支付宝；20 世纪日本人做出了全球保质期最久、最优秀的存储芯片，全世界却在韩国人的带领下爱上了良率不高却足够便宜的三星存储；再后来，新能源时代，日本人一步到位发展起了最清洁的燃料电池，但新能源汽车却在特斯拉的带领下，集体奔赴锂电池的星辰大海。
正如同日本的诺贝尔奖数量并不直接决定其产业的强势与否，对于 AI 产业，只卷基础大模型，或许会是一段时间里，行业最大的失误。
一个最直接的原因就是，当所有资源全部被押注在基础大模型的研发上时，直接带来的，或许不是技术的突飞猛进，而是相同成果一遍遍的复现，反而带来算力与研发资源的极大浪费。
就拿算力来说，一般来说，训练大模型的显卡标准配置为 A100 与 H100。当前，一张 A100 售价大约 8 万人民币，一张 H100 大约 15 万人民币；而将他们组装成服务器，一个 8 卡的 A100 服务器大约 130 万人民币，装配了 8 张 H100 显卡的服务器价格大约 200 万元。而将其对应到模型侧，训练一个千亿模型，大约需要用 1PB 数据，如果在 10 天内完成，需要至少一万张 A100，对应购买服务器的起步费用，就是 17 亿。
所以大模型的私有化部署，根本不可行。央企也折腾不起，更何况现在央企员工开资都费劲呢。又因为上层搞起了央企大模型运动，所以这帮央企就玩起了文字游戏，个个号称自研大模型。他拿什么显卡和数据训练大模型的呢。实际上全是基于RAG技术的生成式AI，以前说过，生成式AI的定义非常宽泛，只要能生成新数据，不是非有大模型不可。而央企内部搞的知识库显然也用不上大模型的高端思维，更何况大模型习惯性的胡说八道，倒不如RAG技术的引用来源。但这种冠以“大模型”的生成式AI多了，互联网大厂搞的通用大模型就更没央企用户。更收不到钱不能变现，而从普通消费者身上收钱，那更是不可能。因为通用大模型还不具备没了它就活不下去的程度，而大失业又让普通人更节衣缩食。

此外，OpenAI 训练 GPT-5 需要数万张英伟达 H100 芯片，也就是说，相应的服务器成本，将达到 30 亿人民币上下，如果再算上数据中心成本、人力成本、电力成本，以及无数次推到重来的可能，需要的成本，几乎相当于国内头部大模型独角兽的融资总额之多。但是美国公司对使用公有云比较放开，不会像国内这样，既不愿意上云，也没钱自建私有化部署。

大模型研发要钱，而在没有确定的营收之前，创投是核心的现金来源。但创投数据库 IT 桔子的数据显示，近两年来，无论 AI 的融资规模还是数量，相比 2017 年前后的 CV 热潮，都大有不足。但研发成本上，大模型却是上个时代 CV 的数倍之多。
于是，AI 行业一个怪圈出现了：早期，每当 Open AI 有新版本的大模型发布时，过不了三个月，国内一大批企业，就会引用第三方数据于开源数据集跑分，开始不断论证自家模型对各个版本 GPT 实现超越。
在这背后，为了迎合打榜需求，over-fitting（过拟合）也成为一个 AI 圈特有的现象，由于训练过程中，模型对某一或者某几个打榜用的开源数据集拟合过于精细，以至于模型记住了不少开源数据集特有的噪声，从而打榜分数居高不下，但实际应用中，效果却往往却一言难尽。

373527271 · 发表于 2024-9-18 15:17:16

Larry Ellison 强调说开发出大模型的门槛是1000亿美金，是说真正自己开发，
有自己的框架，有自己的精调数据和实践，不是用Huggingface上面的开源模型。
这个资金量只有阿里，腾讯，华为，百度，字节可以尝试一下，也仅仅是尝试一下。

		自动登录	找回密码
密码			立即注册