中国AI追随之路至少落后十年

寂静回声 · 发表于 2024-5-13 16:00:24

近日，由长江商学院主办、汕头大学协办的“2024长江独角兽峰会”上，钛媒体集团创始人、董事长、CEO 长江商学院EMBA项目校友赵何娟发表主题“中国AI追随之路的五大误区”的演讲。

从AI 1.0的时代，钛媒体就紧密地关注 AI 领域的发展，而在 AI 1.0时代，无论是中国上市公司还是应用角度来看，与美国相比，我们好像已经有赶超的趋势（好像这个词用的太准确了)。但是到了 AI 2.0时代，也就是AIGC（生成式人工智能）时代下，我们突然发现，为什么中国一夜之间好像就变得落后了。
下午我都很认真的听了每一位嘉宾的分享，其中有嘉宾问到说，为什么现在GPT火了之后中国大模型很快就赶上来了，说明跟美国相比，中国的实力、能力建设就可能差了一点点。
但其实我现在想“泼点冷水”，我觉得短期来说我们可能有点太乐观了。不仅对中国市场过于乐观，而且可能对全球 AI 应用爆发的速度也可能过于乐观了。我认为，短期内没有大家想象那么快，长期又可能过于“忽视”，总想着是不是马上能赚钱。
我们报道10多年，一直跟踪这个领域，其实中国有很多 AI 领域的创业。但我们现在已经处于一个相对落后的状态，我们可能要更多地面对现实，怎么走出“伪AI创业区”。

2022年，AlphaFold 2增强版发布，两年之后的今天，它升级到AlphaFold 3模型——生物学领域关于蛋白和生命结构预测的模型。这个过程中的最根本的一个变化，就是把底层计算方式、模型算法变了。
AlphaFold 3使用了基于Transformer生成式模型和扩散模型的结合，对于蛋白质与其他分子的相互作用，与现有预测方法相比，AlphaFold 3预测精度提高100%以上。
之前的AlphaFold 2预测精度已经较之前至少翻了一倍，如今再翻了一倍。这个过程中相关科学家有过对比，这可能为生物研究界带来了数亿年的进步，节省数万亿美元。
也就是说如果不用这次AI大模型，我们靠研究人员自己去研究，可能要花数亿年、花掉数万亿美元才能达到现在的计算效能。所以，这就是真正AIGC的力量。
但中国在此方面的研究成果几乎是“空白”的。今天我们还发了颜宁教授的演讲，前两年她还说 AI 不可能准确预测蛋白相关结构，如今的发布可以说被“打脸”了。

为什么中国能快速发展很多模型，我觉得这个最重要的是感谢开源，因为GPT-3之前OpenAI是开源的，包括谷歌Transformer论文也是开源的，GPT-3之后才改成闭源了。
这意味着，从GPT-3到GPT-4本质上已经是一个巨大飞跃了。而即将发布的GPT-5，将再次实现比GPT-4质的飞跃，解决诸多局限性。
我去年9月见了OpenAI创始人、CEO奥尔特曼（Sam Altman），他说过去一段时间OpenAI一直都在为GPT-5做准备。但如果GPT-5性能只是一个简单能力提升的话，不会间隔这么长时间。而GPT-5的一个本质变化，可能会把相关的推理模型、相关数据会做一个分离，同时可能会推出他们自己的搜索引擎。
而这些令人震撼的进展，在中国我可以悲观一点叫“望尘莫及”，乐观一点就是但凡它推出来，我们就有能力改善和追赶。（你爷爷一开源，我爷爷就能自主）

第一大误区：中美AI差距只有1到2年
我认为很重要的就是，大家每次都谈谈中美 AI 差距大概是只有1~2年，那是不是真的就是1~2年，为什么会是1~2年？因为会有很多人说GPT3发布就在2020年，那可能在2022年chatGPT出来之后，我们也快速出来了类似于GPT3相关的模型，GPT4出来之后，我们也很快能出来一个对标GPT4水平的模型，就意味着我们相差的时间可能是1—2年，真的是这样吗？
我会觉得所有用这样时间来表述差距的都是“耍流氓”，因为那是人家创新蝶变的代际时间，不是我们的差距时间（能力水平）。
如果说GPT-5现在不能出来，我们可能10年都追赶不上。但是GPT-5出来，我们可能也许花2~3年能赶上。而GPT-5模型水平只是人家的创新节点、迭代时间水平，不是我们自己能力水平，这一点需要非常清楚，这也是我们本质上的一个差距。
我们要看到，这真的是创新引领的差距，不是一个我们花两年赶上一个模型就改变了中美 AI 差距了。

第二个误区：中国是全球最大的AI专利和人才市场。
我们常常会说，尤其是在AI 1.0的时代，中国投资人和创业者到美国硅谷做相关演讲说，中国 AI 已经领先于美国了。背后经常会提到的一个指标是，中国是全球最大的AI的专利和人才市场。
这个专利市场包括我们中国发布AI相关论文和申请AI专利的数量，可以说全球数一数二的，然后以及从事AI相关人才的数量，我们可以说全球数一数二。
但事实是什么样的呢？

中国确实在大学当中培养大量工程师、计算机领域人才，包括很多硅谷的大企业都到清华北大，到中国招聘计算机专业人才。
但是我们可以看到，即便是在2022年顶尖研究人员里面，虽然中国也是排在第二名左右，但是一上到顶级 AI 研究人员数量，只有美国的1/5左右。。如今，2024年可能比两年前更糟糕了。
所以这不是我们想的那样，中国是全球 AI 人才大国。

第三个误区：中国AI的主要障碍是在算力上“卡了脖子”。
中国 AI 的主要障碍在于“算力卡脖子”。我们认为算力卡了脖子，所以我们只要以各种手段能够买到相关的芯片，那是不是就已经达到相关水平了？
但是我想给大家泼一杯冷水的是，在这一轮AI 2.0的这一轮发展里面，不仅算力很重要，模型创新能力也很重要，数据能力也很重要。因此，现在的事实是，我们不仅是“算力”是瓶颈，我们的底层模型的创新能力、数据能力都是“瓶颈”。
我先说数据能力，很多人觉得中国是一个很大的应用市场，中国的消费者数据，企业行为数据等等各分析的数据一定是很丰富的，所以大家觉得中国是有充分的数据，但是我要非常残忍的告诉大家，很多数据都是无用数据，或者是不可用数据。

我在今年年初的时候跟美国气象的一个华裔科学家，同时也是中国气象所的顾问，在讲到气象数据的时候，我说我们也有相关的公司推动了相关气象计算预测的模型。那个科学家就非常直白的说了一句，我们所有的气象数据几乎都是没用的，因为我们缺乏对历史气象数据的整理，缺乏气象数据的归纳，缺乏气象数据相关的整合，变成可计算的数据。
目前对于中国而言，“都缺”。美国 AI 生态里面最重要的一个就是关于数据市场的建设。但在中国，理论上说是没有数据市场的。这个就是生态建设能力里很重要的，就是关于数据市场的建设。那你数据市场不成熟，你能算什么？
中国的模型公司，可以说在中文的计算能力上相对来说是领先的，但是整个中国的数据市场占全球的数据市场不到1%，以及再看所有的数据有效性的时候可以看到，世界主流所有相关的论文数据、研究数据，包括用户的应用数据，视频也好，还是文字也好，相关的应用数据，绝大部分依然是英文的数据。
所以如果我们不能很好的用英文的数据计算，我们如何能形成我们自己有足够竞争力的大模型，这个是很难的。这就是为什么我说我们不要以为美国只是卡了我们的算力脖子，好像只在半导体上发力就行了，实际上是整个生态能力建设，从算力到底层模型的创新，到数据能力和数据市场的生态的建设，我们整体都是落后的。如果非要用时间来说的话，真要把能力建设起来的话，没有十年的时间是很难把它很好的建设起来的。

第四大误区：闭源大模型 VS 开源大模型谁更好？
前段时间可以看到有一些企业家和网红一直在争论说闭源大模型好，还是开源大模型好，我觉得这更好这事情根本不重要，只有谁更合适。
其实不管是开源还是闭源都有各自的优劣，就像手机的iOS是闭源，安卓是开源一样的，它是有各自的优劣。可能目前在性能上来说，尤其是大语言模型，因为现在大语言模型动辄就要算千亿级数据都算小的，动辄都是万亿的数据，像OpenAI都是数万亿级的数据了，这种时候闭源的性能是明显高于开源的。
对于很多的应用来说，或者对于我们的场景，我们其实是没有必要每一个模型都算到万亿级那么大的，那么在一定程度上里说，开源模型并非不可以。
作为OpenAI这种领头羊来说，它的目标是要实现AGI，就是要实现通用人工这件事情来说，闭源可能会让它有更快，更容易集中更多的资源、资金，更快的实现AGI这个目标。
但是对于要来做全社会普及有更多的应用和更多的迭代的速度来说的话，可能开源大模型也是非常必不可少的。所以我们应该跳出是开源大模型更好，还是闭源大模型更好这样的争论来看，不管是哪一个更好，最重要的都是我们是否有自己的创新能力，是否有自己的原创性能力，而不是低水平的山寨。
我们在说百模大战，千模也好，假如说我们的模型都有各自的创新点，都在各自的领域里能够发挥出相关创新的作用，那么一个也不多。
假如说百模大战也好，千模大战也好，不能有任何的创新点，只是在低水平的山寨和复制、内卷，那么确实一个也不需要。所以我觉得这个才是真正的问题，就是自己能不能在模型的创新能力上真正的走到世界舞台上，这是要好好的想的事情。

第五个误区：AI 在各大垂直产业的爆发，会很快发生。
在中国我听到最多的都是说，我们马上要进垂直产业的爆发，今年都是大模型应用爆发的元年。我今年年初就跟一些朋友说，今年不可能是AI垂直产业爆发的元年，可以说是应用的开始，但不能说爆发的元年，不可能马上爆发，因为所有的事情都是有基本规律的，一个产业、行业的发展都是有规律的。
而核心的原因就是因为，我们整个基础设施能力还没有达到产业广泛应用的标准。
比如说现在的SORA也好，还是什么应用也好，我们已经达到了50%的水平，那我是不是可以有50%的应用呢？不是的。如果说产业应用必须要到90%的水平，你只有50%的水平，哪怕只有89%的水平，你都不可能在这个产业里快速的得到爆发级的应用。
大家不要认为只有中国算力被“卡脖子”，而是全世界的算力都被“卡脖子”，美国企业也一样被算力“卡脖子”。这就是为什么，OpenAI在推进GPT-5、GPT-6的过程中速度依然还是很慢的，更深层次是 AI 大模型就是一个“暴力美学”——以足够大的数据、算力、能源为前提，否则一定会被“卡脖子”的，它一定是只能一点点来推进的。
有很多企业可能会指望说，中国公司认为在技术创新能力上不如美国，但中国市场规模要比美国大、中国的应用能力要比美国更强，那么我是不是集中于创业做应用，从而能快速获得成功或者成果？
但我认为，这件事长期来看是这样的，但短期来看是没有机会的。
OpenAI CEO奥尔特曼（Sam Altman）也说，95%创业公司依附在大模型上开发，但是大模型每次大规模迭代都会取代一批创业公司。

AI 也不会违背一般商业定律，所以当基础能力积累到一定程度前，即便用了AI也不见得会取代原有产品。
这也是我今年跟Pika创始人在聊的时候，她最大的危机感。我问她你觉得Pika最大竞争对手是runway吗，她却说最大的危机感是来自OpenAI，因为OpenAI 一定是要做多模态的技术。所以我认为，当基础能力积累到一定程度之前，即便做了 AI 应用，也不会取代之前应用。
因为基础建设能力还没有达到为这个行业产生质变的时候，它就不可能变成一个“爆发”型新的 AI 时代。
很多人说，中国移动互联网应用就在全球领先，但我们现在所处的历史时间点位置不是对应互联网时代，移动互联网应用的爆发阶段，即AI当下发展阶段，不是后互联网发展阶段，而是相当于早期思科的阶段。
现在的英伟达就像当年的思科，当年思科在美国市场上一骑绝尘，一年能涨60倍股价的时候，那个时候有什么互联网公司是值得一提的吗？那时候很多现在的互联网公司可能都还没有出现。后来也是基础设施能力的提升，通信技术从2G到4G的发展，网络技术的提升、移动互联网、长视频短视频的应用逐渐出来。
现在的 AI 应用，还是在帮助我们怎么提高产业效率，但想要彻底改变这个行业来说还需要时间、需要耐心。
这就是为什么我们说，目前还是弱人工智能，中国的大市场优势暂时无法发挥。短期内，还是内容生成相关辅助工具为主，比如搜索、问答、文生图、文生音视频等。

点评：
国内还是有明白人的，连个数学家都没有的地方，连工业技术都这么差劲的地方，你竟然指望AI有什么突破性的进展？
静等着别人开源呢，就是即使这样做那玩意还是垃圾的很，比如我在998帖子中贴出的讯飞星火大模型关于河合千代子的历史，那神一般的内容，全乎鸡巴扯一点儿边都沾不上，全的胡扯，硬编出一个说是以河合千代子为原型的反战电影，还编出了导演和主演和剧情。然而事实是那是一个日本电视剧的主演和剧情，只是作者是擅长做鬼怪漫画的，写的也是自己年轻时的故事。可你看的星火大模型在发布会那吹的，所以可以得出一个简单的结论，凡是在发布会上把自己吹上天的基本上就是垃圾模型，狗屁不是。

2266998 · 发表于 2024-5-13 16:59:34

哈，这次不再给你追赶的路径了，让你啥都摸不着

		自动登录	找回密码
密码			立即注册

中国AI追随之路至少落后十年

本帖子中包含更多资源