机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 97|回复: 0

智谱大模型战略失焦

[复制链接]

2万

主题

2万

帖子

17万

积分

超级版主

Rank: 8Rank: 8

积分
176323
发表于 2024-12-16 14:10:39 | 显示全部楼层 |阅读模式
在2024年的一个寻常冬日,国产AI再次改变了我们与技术交互的方式。
11月29日,智谱大模型在其技术开放日上上演了一幕令人瞩目的科技大戏:历史上首次!AI发出了第一个红包!
公司CEO张鹏仅仅通过三句语音指令,就让旗下的智能体AutoGLM跨越微信、支付宝等多个应用,给现场和线上的观众发了两个大红包。
这一幕背后,折射出的是 AI Agent技术的革命性突破。

当前,传统的AI助手停留在被动响应和单一场景的交互,而智谱AI的AutoGLM已经能够主动理解复杂指令,跨应用协同,并精准执行用户意图。
除了发红包这样的操作外,即使面对多个复杂操作的超长任务,例如订外卖时横跨多个APP比价,AutoGLM也能行云流水般自主执行。
然而这样的“惊喜”,只是今年智谱在AI方向上结出的众多”硕果“之一。
今年7月,智谱AI 代码生成大模型 CodeGeeX 第四代正式发布,支持代码补全、代码注释、代码修复、代码翻译等基础功能;7月末,智谱AI的视频生成模型「智谱清影」正式发布,可生成时长 6 秒,清晰度达到 1440×960的视频。
到了10月,智谱推出并开源端到端语音模型 GLM-4-Voice,与GPT-4o的语音功能一样, GLM-4-Voice可以进行实时语音对话,同时在情绪表达、多语言等方面实现突破,且可随时打断。
由此可见,今年的智谱,在代码、多模态、Agent等多个方向上,都进行了“突击”。
《中国大模型中标项目监测报告》显示,2024年1-9月份,智谱华章中标的大模型项目达到22个,中标项目披露的中标金额为2472.3万元。22个中标项目主要分布在通信、金融、能源、教科等行业,以央国企客户为主。
从大模型中标项目数量来看,智谱华章可以跟科大讯飞、百度一样,位列第一梯队。但是获得这些项目的过程中,智谱华章付出的“代价”也不小。
这样的“代价”,就是卷到极致的价格战。
今年以来,为了应对同行的价格压制,智谱AI将模型调用价格降低到行业最低水平,如GLM-4-Flash的价格仅0.06元/百万tokens;对比之下,OpenAI的GPT-4 Turbo版本为 10美元/百万tokens,差距超过千倍。在一年的时间里,智谱AI从最初的 0.5元/千tokens 降至当前价格,降幅接近1万倍。
这种激进的降价策略,导致利润空间进一步被压缩。于是,作为大模型厂商的智谱AI,要活下来,只能依靠融资。
过去几个月,智谱AI接连发布了AI生成视频模型清影(Ying)、情感语音模型GLM-4-Voice ,以及AI助理工具AutoGLM 等,这无一不是想通过追逐技术热点,来吸引市场关注的表现。

然而,在这看似全面的进展背后,也不免让人产生一种冷静的思考:在体量、资本均不及OpenAI等巨头的情况下,如此广泛的技术覆盖,是否会影响智谱在各个领域的深耕程度?
在今年的AI赛道上,身为“AI六小虎”之一的智谱,虽然布局甚广,但其在每一条战线上的表现,都相对比较“平均”,其产品方向更趋向于跟随,而鲜少有独创性的突破。

以智谱最近发布的旗舰大模型GLM-4-Plus为例,该模型定位是一种类似OpenAI 的o1那样的深度推理模型。虽然其在深度推理、长文本处理和指令遵循等方面表现突出,且能够处理更复杂的数学和逻辑问题,然而,这种“强大”并不意味着绝对的优势,反而暴露出一些潜在的矛盾。
这样的矛盾就在于,GLM-4-Plus这种“类o1”的深度推理模型,实质上与智谱本身的生态定位之间,已经发生了错位。
因为智谱的定位与OpenAI这类巨头有所不同,虽然智谱AI确实更偏向于B端市场,但B端市场并非单一结构,而是由不同层级和类型的需求构成。
对高性能深度推理的需求,主要来自科研、高技术行业或特定领域(如编程或科学计算),这些领域的规模相对有限。
智谱AI的B端客户,则聚焦于更广泛的行业应用的B端客户,包括金融、教育、能源,通信等行业,这样的企业,更需要的是性价比高、易集成且灵活的模型,而非动辄需要高算力支持的深度推理大模型。

如果说,进入高端推理模型的竞争,只是智谱AI在“scaling Law 失效”威胁下,一种展示核心技术实力的必要手段,那么在多模态方向上的布局,则反映了其更深层次的“定位迷失”。
智谱AI在2024年发布的多模态语音助手功能,特别是其基于GLM系列的“智谱清言”系统,通过融合实时语音、视频通话和多模态理解技术,试图在C端应用领域拓展新的场景。

然而,与科大讯飞的“星火”大模型和字节跳动的“豆包”语音AI相比,智谱AI的表现呈现出一些耐人寻味的矛盾。
科大讯飞已深耕语音领域多年,其语音识别、翻译和场景化应用(如会议记录、智能客服)不仅成熟,而且在实际场景中有良好的落地率。字节的“豆包”则依托强大的内容生态,具有将语音AI应用到社交、娱乐和短视频生成等消费级场景中的潜力。

在生态布局均不如人的情况下,智谱AI的多模态语音助手,却仍未能体现亮眼的差异,其视频通话功能虽然支持低延迟,更自然的交互,但智力水平的表现,却与文本状态下有着很大差距。与字节的“豆包”、讯飞的”星火都犯了同样的通病。
除此之外,智谱AI在2024年的文生视频领域也展现了雄心,通过其最新发布的CogVideoX v1.5模型和开放平台“清影”,提供了从文本生成视频(T2V)到多模态整合的一系列功能。其技术亮点包括支持5到10秒的高清视频生成、4K分辨率、多通道输出(一次性生成多个视频)等。

然而,平心而论,与字节、快手等大厂的文生视频大模型相比,“清影”的表现还是太嫩了点。
虽然其主打免费、高清,甚至还在后期加入了AI音效的选项,但从效果上看,其生成的视频不仅古怪、扭曲,并且还有一些很明显的运动错误。
例如,在输入提示词:“一片广阔的海滩上,一个人形机器人和一只猫在一起散步”后,清影生成的视频里,出现了两个机器人,而非一个,同时它们还像螃蟹一样,用一种横着走路的奇怪方式在移动。
更诡异的则是画面中的猫,走着走着,头就变成了尾巴,仿佛器官发生了换位。

上述提到的种种“博而不精”的现象,反映出的更深层次的问题在于,智谱AI似乎在B端与C端两个方向上出现了摇摆的情况。
以视频生成为例,字节跳动通过其强大的内容生态,将MagicVideo-V2紧密结合到TikTok和抖音等平台,实现了技术与商业的双向赋能。同样地,快手也可将视频生成嵌入自身的短视频平台。
短视频赛道,是天然离C端最近,也最具亲和力的一条赛道。
而现在的智谱AI,从生态布局来看,其整体战略更偏向于B端市场,服务的客户包括金融、教育、能源和制造业,这些合作大多集中在需要高技术支持和私有化部署的场景中,如工业流程优化、客户服务智能化等。
但今年智谱AI的多线布局的策略,似乎表明了其既希望拓展ToB市场,又想在C端打造多模态互动的超级应用,形成一种“两头抓”的战略。
在总体资源不及OpenAI,也不及BAT等巨头的情况下,这一策略的结果最终导致了其资源分散,难以在一个方向上形成突出的竞争优势。

智谱AI却被迫“多线进军”,背后折射出了一个深层次的现实:在中国的AI创新生态与投资环境中,“快”往往比“深”更受青睐。
这并非简单的企业选择问题,而是整个创新生态的产物。
智谱AI等国产大模型厂商普遍“追热点”困境,本质上是一个“囚徒困境”:每家企业都知道深耕细作的重要性,但在激烈的市场竞争和资本压力下,不得不选择更激进的策略。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2024-12-24 00:44 , Processed in 0.089791 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表