DeepSeek V3的低训练成本只是一种幻觉

寂静回声 · 发表于 2025-1-6 14:34:42

DeepSeek之所以“实现了低训练成本”的根源，是媒体传播了一个由评估框架固化导致的认知偏差（framing bias)。
今天我们讨论LLM的训练成本，已经不再是2023年一开始的时候——彼时我们讲一个LLM的训练成本，其实指的是从0到1手搓一个大模型的成本。
在已知大模型参数规模，GPU的总浮点运算能力，训练精度等假设基础上，我们完全可以算出训练一个LLM的大致时间。因此，对于开源模型，可以横向对比它们的训练成本。
但是DeepSeek V3并不是一个从0到1训练的大模型，DeepSeek针对在硬件约束条件下做了一些工程创新，但它的训练时间少最主要的原因还是因为它利用了“知识蒸馏”。
知识蒸馏由Hinton在2015年正式提出来，它的基本思想是利用一个专门优化过的性能高的教师模型（大模型）输出的模型权重概率分布作为训练学生模型（小模型）的目标。
R1模型是那个教师模型，也是DeepSeek的真正王炸，发布在11月，这个模型对标的是OpenAI o1，即具备思维链推理能力的模型。DeepSeek采用了强化学习将R1的长链推理能力蒸馏到V3模型上，只是主要集中在数学和编程领域上。
这意味着，某种意义上V3是对R1的继承，它省略了一些超参数调优过程，这种对推理母模型的推理能力的直接继承，意味着有相当多的参数权重不需要重复训练。
所以如果真正要对比训练成本，V3应当被看作是至少是R1+V3的两个版本的集合。而目前为止，DeepSeek也未曾公布它们对R1的训练情况。但是他们宣称未来会开源，那我们就只好等待来看看R1的端倪了。但用一篇技术报告宣传自己只用了多少时间完成训练，而不提教师模型R1的真实训练成本，在我眼里，确实是有目的性的营销嫌疑的。也许是为了商业推广，也许是为了融资。

从V1, V2到R1, V3，DeepSeek的主要工程创新是自创的MLA多头潜在注意力机制，通过对键值缓存的低秩压缩，在推理中显著减少缓存占用。其次是引入MoE混合专家机制，分为细粒度专家以及共享专家，并建立动态路由机制来分配数据输入到不同的专家模型中。另外，他们还选择了低精度训练但同时维持了模型稳定性，这也大大减少了内存占用。

		自动登录	找回密码
密码			立即注册

DeepSeek V3的低训练成本只是一种幻觉

本帖子中包含更多资源