国产大模型的参数量为什么设计成 7B，13B，33B

寂静回声 · 发表于 2024-11-29 12:20:05

第一个这么设计的模型是美国GPT 3。
GPT 3 当时选定了 6.7B， 13B，和 175 B。后面复现的人得做对比实验吧，那自然要对标 GPT 3，不然一个 6.7 B，一个 10 B，那对比起来也没什么意义。

所以这些参数的设定可以说是从 GPT 3 传下来的，因为大家都想和 GPT 3 PK 一下。所以那个时候很多模型都是 7B 和 13 B 左右，但是略有差异，也许是 6B，也许是 14B。

后来到了 Meta 手里，又加了 33 B 和 65 B 两个模型。但是 Meta 发布 Llama 之后，模型结构基本都已经固化了，所以基本都是复用 Llama 的结构了，那自然也就延续了 Llama 的模型大小。

从这里我们可以获取到如下信息

GPT 3 训练采用了 tensor parallel 和 pipeline parallel
选择参数大小的原因是为了并行训练的计算和通信效率。
说实话，那个时候可能压根就没考虑过推理的事情，因为训练完了行不行还不知道呢，当时只能先专注于训练的效率。

当然另一个因素也是因为受到老黄显卡GPU的性能的限制。

点评
所以国产大模型是真没有资格说自研这两个字，连参数量都是抄人家美国的。

		自动登录	找回密码
密码			立即注册

国产大模型的参数量为什么设计成 7B，13B，33B

本帖子中包含更多资源

浏览过的版块