机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 77|回复: 0

DeepSeek V3的低训练成本只是一种幻觉

[复制链接]

2万

主题

2万

帖子

17万

积分

超级版主

Rank: 8Rank: 8

积分
177317
发表于 前天 14:34 | 显示全部楼层 |阅读模式
DeepSeek之所以“实现了低训练成本”的根源,是媒体传播了一个由评估框架固化导致的认知偏差(framing bias)。
今天我们讨论LLM的训练成本,已经不再是2023年一开始的时候——彼时我们讲一个LLM的训练成本,其实指的是从0到1手搓一个大模型的成本。
在已知大模型参数规模,GPU的总浮点运算能力,训练精度等假设基础上,我们完全可以算出训练一个LLM的大致时间。因此,对于开源模型,可以横向对比它们的训练成本。
但是DeepSeek V3并不是一个从0到1训练的大模型,DeepSeek针对在硬件约束条件下做了一些工程创新,但它的训练时间少最主要的原因还是因为它利用了“知识蒸馏”。
知识蒸馏由Hinton在2015年正式提出来,它的基本思想是利用一个专门优化过的性能高的教师模型(大模型)输出的模型权重概率分布作为训练学生模型(小模型)的目标。
R1模型是那个教师模型,也是DeepSeek的真正王炸,发布在11月,这个模型对标的是OpenAI o1,即具备思维链推理能力的模型。DeepSeek采用了强化学习将R1的长链推理能力蒸馏到V3模型上,只是主要集中在数学和编程领域上。
这意味着,某种意义上V3是对R1的继承,它省略了一些超参数调优过程,这种对推理母模型的推理能力的直接继承,意味着有相当多的参数权重不需要重复训练。
所以如果真正要对比训练成本,V3应当被看作是至少是R1+V3的两个版本的集合。而目前为止,DeepSeek也未曾公布它们对R1的训练情况。但是他们宣称未来会开源,那我们就只好等待来看看R1的端倪了。但用一篇技术报告宣传自己只用了多少时间完成训练,而不提教师模型R1的真实训练成本,在我眼里,确实是有目的性的营销嫌疑的。也许是为了商业推广,也许是为了融资。

从V1, V2到R1, V3,DeepSeek的主要工程创新是自创的MLA多头潜在注意力机制,通过对键值缓存的低秩压缩,在推理中显著减少缓存占用。其次是引入MoE混合专家机制,分为细粒度专家以及共享专家,并建立动态路由机制来分配数据输入到不同的专家模型中。另外,他们还选择了低精度训练但同时维持了模型稳定性,这也大大减少了内存占用。





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-1-8 11:26 , Processed in 0.089527 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表