寻找大模型泡沫根源

寂静回声 · 发表于 2024-10-24 14:48:59

本帖最后由寂静回声于 2024-10-24 14:51 编辑

2022年诞生的ChatGPT，已经在相当程度上实现了大模型的Scaling law（尺度定律）和通用能力涌现。ChatGPT自身作为一个终端产品的商业化也持续有不错进展。据2024年7月的非公开数据，OpenAI的ARR（年经常性收入）已经达到了相当可观的41亿美元。
但这些收入都是在极度高昂的算力、研发和运营成本基础上实现的，而且细看最近OpenAI的发展，也很难称得上“顺利”。今年以来，包括联创约翰·舒尔曼和伊利亚·苏茨克沃在内的多位核心高管已离开，9月下旬更是接连发生了首席技术官（CTO）米拉·穆拉蒂离职与苹果退出参与其最新一轮融资谈判的两大事件。
在华映资本看来，只有当GPT真正赋能所有上层垂直行业应用场景，即实现所谓大规模落地实践，以平台形式实现商业化，OpenAI开创的LLM浪潮才算彻底到来。但当前，无论是在to C还是to B侧，GPT都更像是一个超级APP，而非一个类似IOS的底层平台。GPT插件和GPTs已经证明了底座LLM不能简单复制IOS的App Store。
然OpenAI刚发布的o1模型用self-play RL的方法将scaling law推到了一个新的层次，实现了更强的推理逻辑能力，但上述“平台化瓶颈”并未得到根本改变。各垂直场景目前都尚未看到真正全面爆发的趋势。无论是在创业还是投资层面，大模型行业泡沫都已显现。这背后，限制GPT进行平台型商业化的根源究竟是什么？
在今年上半年推出的《再访硅谷：生成式AI随处可见，VC开始关注国家安全类项目丨华映资本全球化观察》中，我们介绍了在生成式AI的浪潮之中，硅谷在Agent、具身、算力、无人驾驶等领域的发展情况，也提到华映关注“有底座大模型算法能力的垂直整合应用层公司”。

目前AI领域投资人以及创业者(尤其在国内)主要分成下面两个"流派":
持应用场景派观点的投资人，其投资标的是依靠对底座模型的调用实现垂直行业大模型商业化的公司，创始人通常是场景侧或产品背景，对于底座模型的深入理解并非必要。在做该种投资选择时，需要应对以下问题的挑战：
1. 预测LLM能推动应用场景爆发的底层driver究竟是什么;
2. 这个driver是否能持续、未来发展走向是什么;
3. 应用的全面爆发需要经历哪些milestones。
如果投资人对以上问题没有完全自洽的解答，盲目乐观押注应用场景的爆发，将催生投资和创业的泡沫。

创业者更聚焦底座大模型，即底层平台，认为未来一切都由AI平台驱动，所以不太纠结上层应用。这些大模型平台公司目前普遍遇到下面几个瓶颈：
1. 上层杀手级应用迟迟未出现，很多时候需要底座公司亲自下场去场景侧做定制化交付和实施；应用少也造成数据闭环无法形成；
2. 上层应用门槛薄，上下两层之间的边界不清晰，底座的版本更新会“不小心”碾压上层应用，如GPT-3.5更新至GPT-4后对Jasper的碾压；
3. 训练数据开始"枯竭"， Scaling law面临停滞；
4. 大模型平台公司对算力越来越依赖，成为"金钱的游戏"。
前两条其实也恰是应用场景派遇到的根本问题，当下在上层应用迟未爆发、甚至业界无法预测爆发时间点及爆发所需经历milestones的背景下，上述两类投资方法论暂时未能奏效。

事实上这两种"流派"的区分，恰恰是受互联网时代的公司可以清晰切分为"互联网应用"和"互联网平台"上下两层的思维惯性所影响，但大模型在当前并没有到达互联网时代这个"分层解耦"的阶段，所以这两个流派的划分本身就值得商榷。

要破解上文提到的诸多疑问，我们必须先从理解大模型乃至整个人工智能浪潮的本质开始。广义的人工智能在1956年的达特茅斯会议即宣告诞生，但AI真正的产业化直到2012年左右AlexNet的出现才实现。AI产业化主要经历了下面两个阶段：
1. AI 1.0 深度学习(2012年AlexNet引发)：深度学习算法将海量数据进行训练后输出模型，来替代计算机科学几十年来积累的算法和规则，从而数次实现产业化。深度学习的大规模应用是“产业化AI”的本质，也是“数据定义生产力”的开始。
2. AI 2.0 大语言模型(2022年GPT3.5引发)：深度学习网络结合多头自注意力(Transformer)，并运用decoder only和自回归机制，更大数据集带来更大参数量模型的通用能力涌现，实现了Scaling Law。
这两个AI产业化阶段的最根本点是：第一次制造了对于数据和算力的充分应用和依赖。

我们先聚焦在数据这个维度，一个可以达成的共识是：自称“AI驱动”的企业都必须拥有足够的私有数据，才有足够的护城河。只依靠调用底座模型而不掌握也不积累私有数据的“AI公司”，即便直接调用API的短期效果很好，也并不具备长期价值。GPTs和类Jasper公司的快速衰败已证实了这点。

那些声称拥有数据的AI公司，也经常被数据的双刃剑困扰，即数据作为优势的同时也会制造瓶颈。针对这些公司我们须先问下面的问题：
1. 当前掌握的私有数据从何而来，数据量多大，是否有足够的“私有门槛”；
2. 私有数据清洗、抽取的成本是多大；
3. 清洗后的数据如何训练进入到垂直模型，从而推动底座模型在垂直领域进一步提高能力，推进Scaling law。
不能完整回答以上问题的“AI公司”，都面临长期价值主张是否成立的风险。

我们先来看LLM的四类典型应用场景的用户，以及他们如何利用私有数据：
1. C端终端用户：直接和GPT聊天，或者运用简单提示词工程，这里可以看作也在通过提示词使用自身一些简单的用户私有数据；
2. B端终端客户：直接调用LLM的API接口来运用提示词工程；或将私有数据向量化后存入向量DB，再做RAG；或通过微调生成一些特定下游任务模型。很多这类客户反馈有不错的效果。
3. B端服务实施公司：帮助上述B端客户当中不具备这些能力的公司来交付和部署这些流程，尤其是RAG和微调。
4. 纯商业化产品公司：利用自身前期积累的垂直领域私有数据、在底座模型上生成垂直模型后，以标准化产品的形式服务自己的C端或者B端客户，获得商业化回报。
前面三类LLM的应用场景事实上都实现了不错的效果和商业化，也是OpenAI及类似底座模型企业商业化的主体。但这些并不能支撑LLM需要完成的平台性的商业化生态。只有当第4类公司大规模出现之后，LLM的平台性质的商业化才能真正爆发。严格来说，第4类公司里面有一部分是现有的成熟阶段公司，如Adobe、Salesforce、Netflix等，他们借助LLM的能力提升了原来的产品，从而更好的服务了自己的客户。对比互联网时代，它们更类似之前的线下零售公司如苏宁、借助互联网建立了苏宁网购。但我们更倾向把他们归到第2类公司。

我们真正期待的是：与当年互联网时代的Amazon和淘宝这类新型纯互联网零售企业对应的AI时代的“原生应用”企业开始涌现。这样才能推动AI应用的大潮。可惜的是，目前从这类AI原生应用公司的终端客户的使用度上判断，并没有看到规模化的迹象，因而业界不断有“大模型是否到了瓶颈或者泡沫化”的讨论。聚焦上面列举的所有B端公司，尤其是众多垂直行业的企业，如金融、医疗、法律、教育、媒体、旅游，制造业等。无疑这些垂直领域的众多企业已经拥有大量历史积累的私有数据，即企业自有数据或专业的行业数据。而这些私有数据是否有效获得充分利用，将极为关键。
鉴于上文阐述的AI产业化的实质，数据运用已经成为大模型时代scaling law延续的基石，这点与AI之前的时代形成了鲜明分界。因此我们对于私有数据是否得到充分利用的定义是数据能否帮助推动scaling law，即能否持续促进最终大模型的能力涌现。这里依次探讨一下当前几种私有数据主流运用方法的实质和现况。

提示词工程、上下文学习
这些数据运用方法在C端以及小B应用里面占很大比例，实质上都可以归结为简单或高级的API调用。推动底座参数能力scaling law的力度有限。

RAG(检索增强生成)
是目前利用大部分企业私有数据事实上的最普遍实践。其实质是检索加上极其复杂的上下文学习。有时会结合Langchain等编排以及Agent智能体的方法，如微软的GraphRAG等。RAG要真正运用好的技术门槛其实比大部分纯应用公司能承受的水平要高，很多会涉及底座模型的细节，所以现在经常依靠第三方服务公司去完成。
同时业界关于RAG是否能最终推动scaling law也有很多争论，借用很多之前文献里关于“学生参加开卷考试”的比喻：一位本科学生参加法学考试，但他从未学习过法学院的课本，考试时在他面前放了一堆可随时查阅的法律书籍，同时教会他一套极其复杂的查阅(检索)的方法，学生不需要都记住这些书里信息，只需遇到法律问题时随时查阅就能给出不错的答案。但这整个过程是否真正让他拥有了法学院学生的能力并持续提升、即推进了scaling law，值得探讨。

微调
企业客户基于底座模型做微调的效果在业界并没有共识，很多从业者反馈效果不错，也有不少反馈风险大且效果未必好，目前观察到的事实是微调在企业场景应用实践少于RAG，并且技术门槛相比RAG更高，尤其在RM (奖励模型) 和 PPO(近端策略优化) 方面，甚至几乎需要有很强底座模型经验的团队参与。
回顾历史， Google早期的BERT架构就定义了“通用任务预训练+下游任务微调”的流程，效果很好；进入GPT时代后，该架构得到延续，但因底座模型加大，微调成本升高，破坏底座能力(遗忘)的风险增加，所以OpenAI主要用它结合垂直领域的人类监督数据来做对齐微调：SFT， RLHF(包括RM、PPO)等，来消除有害、误导或偏见性表述，对齐本领域的价值观和偏好。延用上文关于学生的比喻，这类对齐式的微调有点类似于想让本科毕业生尽快进入律所工作，但并非用法学院深造来增加他们的法律专业知识，而只是通过密集的上岗培训来让他们具备法务的话术和基本素质。
至于其他更多各类的微调方法，实际运用案例似乎并不多，技术实现也常陷入矛盾：一方面想改动一些底座的网络参数，一方面又不敢动太多参数而损失底座的通用能力，这个尺度如果不是底座模型团队自己，其他人可能都很难掌握。全量参数“微调”已经接近下文提及的重新训练，风险和成本都增加；而无论是冻结还是低秩适应(LoRA)的方法，目前也都无法完全避免风险。事实上即便只做对齐微调，能做到最安全且最优效果的可能也还是对底座模型实现非常熟悉的团队。

Agent
大范畴上可归类于后训练的高级手段，其中包含Langchain等编排同时结合反思、规划、记忆、工具使用、协同等产生LLM多次调用的方法，以及包括进阶RAG里面运用的诸多手段。Agent无疑是未来趋势，但运用尚在早期，有待进一步深化探索。目前无论理论还是实践上，都还暂难证明是否分解多步骤后对LLM的系统性反复调用(multi shot) 就能让底座LLM延续scaling law，尤其是如何让私有数据更好地贡献于这个延续，尚不清晰。

重新预训练、继续训练
企业直接用自己的私有数据结合底座模型来重新训练自己的垂直模型，这在目前看显然最不实际，因此在普通企业用户里面运用的案例无疑最少，除了算力和成本因素外，还有以下原因：
重新训练的私有数据和通用数据集的量与质量的配比很难掌握，这是底座大模型厂商的最核心秘密和护城河。配比不正确，训练后模型的通用能力会大幅下降(灾难性遗忘)。对于继续训练，也需要去猜测底座模型用的通用数据集以及他们预训练到达的checkpoint等。Bloomberg运用自身大规模私有金融数据重新预训练出来了垂直金融大模型BloombergGPT，但效果不佳，使用度很低，大概率是这个原因；
没有企业客户愿意直接把自己的私有数据直接拱手献给底座大模型公司去合作预训练。甚至很多本身拥有底座模型的巨头的内部应用产品部门也不愿意内部贡献这些数据。
尽管业界有观点认为企业用私有数据重新训练相对RAG和微调优势并不大，但应该无人完全否定这个优势。尤其当企业和底座模型侧能充分合作、即数据、训练算法乃至团队充分互通的时候，优势还是具备的。然而如何能规模性地达成这种理想化合作而消除上述的割裂，正是GPT类底座公司真正商业化的难题：
垂直行业企业：拥有大量垂类数据，但对底座模型的训练算法、数据集乃至预训练到达的checkpoint都不了解；
底座模型公司：难以触达和获取所有企业客户的垂类数据。
因此拥有数据的场景方和拥有训练算法的底座方在实践中产生了割裂，大模型技术栈的上下两层不仅没有相互促进而产生飞轮效应，反而互为制约。

企业私有数据无法完全参与底座大模型的继续训练，是造成“数据不足”困境的重要原因。一方面抱怨预训练数据“枯竭”，一方面又不能充分利用垂直行业的私有数据，是当下类GPT架构的一大遗憾。尽管业界也有大量对合成数据或仿真数据的探索，但其成本控制和输出质量都仍处于早期。过度注重成本高且质量参差的合成数据而放弃已有的大规模垂直行业数据的做法也值得深思。
综上所述，GPT定义的主流“底座预训练 + 私有数据RAG或微调”的架构暂时无法推动更大涌现。垂直应用场景企业的私有数据尚未能充分贡献于scaling law进程，这是大模型目前未触发大规模落地应用的核心根源之一。

为打破英伟达显卡带来的高额算力成本投入的僵局，很多下游行业玩家推出“垂直行业小模型”或者“端侧小模型”，但可惜在技术路线上很难真正有捷径可走。这些小模型，除了通过RAG或者微调生成的模型、也包括大模型蒸馏后的小模型，即用大模型生产数据去训练出的模型，以及对大模型裁剪、压缩、剪枝后的模型。他们都有一个共同点：起点和核心价值仍在大模型上。

除了上述这些之外，产业实践中也还存在以下类型的小模型：
基于非GPT、或非Transformer架构的模型网络，如BERT、CNN、RNN、Diffusion以及RL等；
其他更传统的非深度学习、甚至基于规则的“模型”。
这些小模型可看作是针对大量细节长尾下游场景的特殊处理，更多仍需要对位于中心的大模型去辅助展开，超额价值目前有限，其真正价值仍聚集于大模型。这里借用张宏江博士在腾讯深网的访谈里对于“小模型”的论述：
应该先“把大模型的性能做好，才能真正出现涌现”，再“通过蒸馏的方法和持续学习的方法把它做小，而不是一开始就做个小模型”。

为进一步思考上文提及的技术栈无法解耦和分工的根本现象，我们再回顾一下互联网的历史。我们比较习惯提的互联网，事实上是从1994年浏览器的出现开始的“Web互联网”，而广义的互联网早在1970到80年代就已经出现，最早的形态是FTP、Rlogin、Telnet以及Email电邮等“垂直整合应用”的产品形态。直到Web和浏览器作为平台(下图中的绿色框) 出现之后，大量类似Yahoo等基于网页形式的纯应用才真正与底层解耦，从而相继在各个垂直行业爆发，如零售行业的Amazon、旅游行业的Expedia、媒体行业的Netflix等等。
到了大模型时代，我们*看到的也是ChatGPT、Claude、Character。AI、Sora等“垂直整合应用”的产品形态，但由于前文提到的私有数据运用的困局，底层平台和上层应用充分解耦的阶段其实尚未降临。LLM大模型时代的平台(下图中的浅绿色框)尚未出现。

我们这里所说的平台更准确地应称为“操作系统(OS)”。OS的核心功能就是隔离上层应用和下层技术细节，让应用公司可以聚焦产品和运营、从而规模化实现落地和商业化。OS的具体例子就是互联网时代的浏览器、PC时代的Windows、以及移动时代的IOS和安卓。OS与思科这样的基础设施(Infra)的核心区别是：Infra的实质是工具，它无法将应用层与底层有效切分出来；Infra的调用者往往还是需要对下层技术有深刻的理解，才能将工具运用的好；所以Infra自身无法催生大规模应用生态。OpenAI与它的同行们误认为自己创造了类似苹果这样的的平台即OS，但事实上只是创造了类似思科的Infra。相比互联网和移动互联网的进程，可以说大模型还处在“前浏览器或前IOS时代”。

红杉在2023年9月题为“Generative AI's Act Two”的博客里面也提到“Vertical separation hasn't happened yet”的说法，时间过去一年，我们认为这个“separation”依然没有发生，并因为上面提到的数据强耦合等原因，红杉博客原文说的“vertically integrated”还会是个常态。
在中国国内，这个类型的公司还比较少，核心原因在于具备底层模型能力的团队极其稀缺，但具备这些能力的团队又都执着于做底层平台的述求。随着几家头部模型公司(包括互联网大厂的底座模型团队)相继遇到上述瓶颈，它们中的一些核心技术人员会开始独立创办“垂直整合应用”公司；同时有几家头部底座模型公司自己也在转型到垂直整合场景，比如百川的医疗大模型、及零一的BeaGo等。

点评
这篇文章也许有点内容，但作为投资资本编写的，不可避免地带有局限性。就是回避大模型自身无能的本质，老惦记着用户的数据。
这就像十年前那帮民营和经济学家老惦记着垄断行业的超额利润，但工业领域大片空白视而不见，本质就是躺赢的中式思维在作怪。

我让大模型给复述一下容规中某个资料性附录C，结果一部分国产大模型建议我自己阅读原文，它们屁事干不了，星火大模型还给个容规全文的链接。
我他妈的是找不到标准的全文链接吗，你大模型能找到标准的全文链接，为什么不能阅读标准全文并找到其中的附录C给我复述一遍，不是成天说自己超越了GPT-4o吗。
当然要说大模型的胡说八道，排第一的当属通义大模型，它倒是真把附录C的内容“复述”一遍。但可惜全文是瞎编的，一点内容都不沾边。
通义大模型还有个特点就是就某一产品问相关的国家标准或行业标准，它咣咣列出一堆标准。
结果一查，标准号与标准标题完全对不上。标准标题是瞎编的，标准号是其它的标准，与所提问的内容基本无关。
这种事已经试验多次，多次试验结果全是瞎编。

这国家标准的相关信息是私有数据吗，别告诉我你们这些大模型厂商没有这些数据做过预训练。
为什么国产大模型厂商成片地把生成式AI做成需要联网搜索的，就是国产大模型自身能力太差了，经常性的胡说八道。
所以不得不把生成式AI做成了AI搜索，就是使用了RAG技术的大模型。
比如kimi大模型最近升级，号称能同时搜索500个网页，给出二十个三十个信息源引用链接。其实就这点来说，当成百度搜索的替代搜索也可以。
说是先搜索后整理，那个整理简直是不能看。比如曾经向星火大模型提问关于斜齿条的问题，它联网搜索了多少个网页是不知道。但最后给出五个信源链接，结果挨个信源链接一审查，根本没有提及斜齿条的，那星火大模型的关于斜齿条的回答又是从哪来的。

只能说投资商们急了，眼看钱收不回来了。就瞎琢磨，是不是把企业用户的私有数据给大模型，大模型们的智商又能占领高地了。
，

		自动登录	找回密码
密码			立即注册

寻找大模型泡沫根源

浏览过的版块