大模型自身的问题和中国大模型的问题

寂静回声 发表于 2024-3-22 16:11:33

大模型目前所具备的能力，包括ChatGPT和最近火热的sora，我认为本质上提供的还是检索能力，只是检索的方式从早期的“关键词匹配”、“特征（向量）匹配”进化到了“标记(token)预测”，虽然输出的结果看起来像是那么回事，但本质上，输出结果还是来自于训练数据，从预先训练的海量的数据里预测符合这个输入的对应输出，只是输出的精度达到了标记(token)级别之后，把不同token组合起来的可能性也足够多，多到甚至有那么点原创的意思。
因此从原理上来说，我认为现阶段大模型最好的应用场景还是检索，无论是检索型的私人助理，还是检索型的内容创作辅助工具，包括对输入内容的模板化的处理，只要能在已知且有限的数据集内检索到的问题，都是合适的。

即使这样，大模型目前从原理来说，并不具备推理能力、更不具备情感。也就意味着单纯依靠大模型很难避免它胡扯（幻觉），并且也生成不了训练数据之外的内容。因此，目前大模型还只能作为被人使用的工具，而不能替代一个逻辑人，更别说替代一个有情感的活人了。
作为检索能力，早些年搜索引擎依靠关键词匹配能力直接打开了互联网时代，后来推荐引擎靠着特征匹配又横扫了一轮互联网，大模型依靠标记预测应该能再掀起一次风浪，只是没有很多人说的那么邪乎。

很多人看着各种大模型开源了之后就觉着下个开源时代来了，我认为目前的大模型跟开源社区的最终发展结果是相悖的。早期开源运动兴起时，个人主机和廉价冗余服务器逐渐普及，软件的核心是代码，开放代码之后，所有人都可以在此基础上进行修改、部署和分发；而目前的大模型则依赖于数据和算力，集市模式的开源社区很难具备两个条件。
因此，目前的大模型开源运动更像是几个巨型公司找了社区这么个的外包组织，虽然大家干的都很红火，但能提供模型本身的依然只有几个公司，能提供模型服务的，也都是商业公司，而不是开发者或者终端用户。最终当大模型的生态平稳之后，社区很难直接拥有大模型的关键技术。

2023年科技领域最热的话题就是AI大模型。这股热潮由美国创业公司OpenAI引领，ChatGPT发布后几个月，中国公司密集发布自己的大模型，整个2023年，中国公司发布的大模型数量已经超过130个。OpenAI能够实现技术突破，和许多科技创新领域公司的特点类似。有足够优秀的人才，海量资金支持，多年持续投入，以及对目标坚定。在ChatGPT发布之前的很长一段时间里，产业界和投资界大多不看好OpenAI，但并未动摇该公司的方向。2023年，几乎所有人都认可了大模型的方向，大家认为，OpenAI已经把结果摆出来了，其他公司要做的就是尽快跟进，不断优化，确保能参与未来。一些人把过去没有大规模投入大模型的原因归咎于不确定结果。现在已经确定了，算力、数据、人才都可以加大投入，中国公司擅长工程优化，做出能实际应用的大模型产品指日可待。但事实真的如此吗？
第三方数据机构SemiAnalysis估计，OpenAI使用了约3617台HGX A100服务器，包含近3万块英伟达GPU。光有GPU还不够，投资方微软帮助OpenAI搭建了大模型定制化的算力集群，能够进一步提升这些GPU的效率。在数据方面，OpenAI从数据收集、数据标注、数据清洗、数据整理、数据优化等每个环节都有持续投入。OpenAI团队中大部分人，都来自顶尖的科研机构或科技巨头。也就是说，在这种实力和投入力度下，OpenAI依然用了超过八年的时间，才打造出突破性产品GPT4，且存在“幻觉”（也就是答非所问、胡说八道等情况）。为什么中国公司在几个月的时间里，就能做出号称匹敌GPT4的大模型？这是谁的幻觉？
多位业内人士告诉《财经》记者，榜单表现越好，套壳比例越高，略有调整表现就会变差。“套壳”只是中国大模型产业现状的冰山一角，这背后折射出产业发展的五个问题，它们之间互为因果，每个问题都无法独立解决。

目前国产大模型中，主要分为三类：一是原创大模型；二是套壳国外的开源大模型；三是拼装大模型，也就是把过去的小模型们拼在一起，变成参数量看起来很大的“大模型”。其中，原创大模型数量最少，做原创大模型需要有很强的技术积累，且要有持续的高投入，风险很大，因为一旦模型没有足够强的竞争力，这些大规模投入就打了水漂。大模型的价值需要商业化来证明，当市场上已经出现足够好的基础大模型，其他公司应该去挖掘新的价值点，比如大模型在不同领域的应用，或是中间层，比如帮大模型训练、数据处理、算力服务等。但现状是，大部分参与者都在“卷”所谓的“原创大模型”，又担心风险太高，于是有了大量套壳、拼装的大模型。无论是直接使用开源模型或是拼装模型，只要符合相关规范，都没有问题。到商业化落地阶段，客户也不太会在意是否原创，有用就行，甚至不少客户会因为成本更低，更愿意选择非原创的技术。

尽管有美国政府的“出口管制规则”，中国公司想要获得英伟达的算力，并非不可能，目前有很多方式可以选择。除了直接购买，还可以通过英伟达在中国的合作伙伴们购买。GPU本身很贵，买来之后的部署、运营、调试、使用，都是成本。此前业内流传的一句话是，中国不少科研机构连A100的电费都付不起。由八张A100组成的DGX服务器最大功率是6.5kW，也就是运行一小时需要6.5度电，同时要搭配大约同等电量的散热设备。按照平均工业用电每度0.63元计算，一台服务器开一天（24小时）的电费约200元。如果是1000台服务器，一天的电费就是约20万元。因此，除了大厂，创业公司很难大规模购买、部署GPU。GPU资源还可以租用，在阿里云、腾讯云或是亚马逊AWS等云服务平台上，都可以直接租用A100算力服务。租金同样在过去一年涨了不少。但实际情况是，不少大模型公司并不想在算力上做大规模投入。多位关注AI的投资人告诉《财经》记者，一旦创业公司开始部署算力，会出现两个“问题”，一是这个投入没有上限，没有终点，谁也不知道要烧到什么程度。OpenAI到今天还会因为算力跟不上而出现宕机。二是公司会因此变成重资产公司，这对于公司未来的估值有不利影响，会直接影响到投资人的收益。2023年，中国不少投资人会直接告诉大模型创业者，先招一些名校背景的人，抓紧开发布会，发布大模型产品，然后做下一轮融资，不要去买算力。创业公司们在风口期拿到大量融资，高薪招人，高调发布产品，推高估值。一旦风口过去，继续融资或是上市就需要收入，到时候再通过此前融到的钱，去低价甚至亏本竞标项目，或是直接对外投资来并表收入。

在中国，一般的数据获取门槛很低，过去主要是用爬虫工具来收集数据，现在可以直接用开源的数据集。中国大模型以中文数据为主，业内普遍认为中文互联网数据的质量较低。一位AI公司创始人形容，当他需要在互联网上搜索专业信息时，他会用谷歌搜索，或是上YouTube。国内的网站或App上，并非缺少专业信息，而是广告内容太多，找到专业内容需要的时间更久。 OpenAI用于训练大模型的中文数据同样来源于中国互联网平台，但它额外做了很多工作来提升数据质量，这不是普通的数据标注工作能完成的，需要专业团队对数据进行清洗、整理。此前就有AI创业者表示，在中国很难找到相对标准化的数据服务商，大多是定制化服务，定制服务又很贵。这和是否要大规模投资算力的逻辑有些类似，这笔投入对于很多公司，尤其是创业公司来说，看起来并不划算。如果大规模投入，一旦最后的模型效果不理想，同样是“打水漂”，还不如用开源数据训练，直接开发布会。此外，中国市场缺乏有效的数据保护手段，一位大厂AI负责人说，“在中国，你能拿到的数据，别人也能拿到”，“如果你花很多钱去做高质量数据，别人可以用很低的成本拿到，反过来也一样。”包括数据处理在内的大模型中间环节，在2024年会是一个相对明确的新发展方向。无论是哪种模型，在落地到具体应用场景中时，必须要用专业数据做优化调试，这对于数据处理的要求更高，此外还需要有模型调试、工程优化等环节参与。

以上的三个问题，背后都指向一个共同的方向：资本短视。尽管OpenAI已经蹚出一条明确的道路，对于绝大部分公司来说，想从零开始做出成熟的大模型，需要耗费的成本和时间并不会短很多。对于大部分投资人来说，每笔投资的目的很明确：退出、赚钱。OpenAI火了，估值一路攀升，未来还会继续增长。2023年4月，该公司估值约280亿美元，到2023年12月，据美国媒体报道，OpenAI最新一轮估值或将超过1000亿美元。这在投资人眼里是一个非常确定的信号，如果以合适的价格投资中国大模型创业公司，也能在很短时间内做到估值成倍增长。中国投资人的耐心只有三五年，这是资本运作模式决定的。投资人从LP手里募资，需要在一定年限内退出并拿到可观的收益。投资人退出的渠道包括项目并购、上市，或是在后续融资中把自己手里的股份卖给新投资方。早期融资可以靠风口和讲故事，但走到中后期甚至上市，就必须有一定规模的商业化能力。投资人们发现，拖得越久，项目上市或被并购的难度就越高，因为AI领域主要的商业模式是做B端的定制化项目，这条路径就决定了创业公司很难做出高增长的收入。投资人只能趁风口还在，迅速推动公司完成多轮融资，抬高估值，之后哪怕打折出售手里的股份，也是划算的。这也是为什么2023年大模型相关的发布会层出不穷，各种大模型榜单百花齐放且排名各不相同，这些都是有助于融资的“故事”。

目前看来，大模型的主要应用方向有两个：一是通过大模型技术为C端用户提供新的工具，比如付费版GPT4、百度用文心大模型重构的百度文库、新的AI视频剪辑工具、文生图工具等。但C端付费短期内很难有大规模增长，对于大模型工具有刚需的人群相对较少。更有希望的商业化方向是B端服务。在中国市场，做B端软件服务一直是一个“老大难”的生意。多位投资人和业内人士都提到，中国市场最大的B端客户是政府和国企，大模型做为先进的生产力工具，会有一个直接影响是减少人力。而在政府和国企，减少人力在很多时候反而会变成阻力。如果退而求其次，选择中小B客户，在2024年恐怕也很难。一位AI大模型创业者说，他近期询问了不少企业客户，得到的回应是：“大模型能做什么？能帮我裁员还是能帮我赚钱？”到今天，即使是最先进的大模型也依然存在“幻觉”问题，这在C端应用上还可以忍受，但在一些专业的B端场景中，有“幻觉”就意味着难以真正落地。

页: [1]

机械荟萃山庄's Archiver

大模型自身的问题和中国大模型的问题