国产大模型的参数量为什么设计成 7B,13B,33B
第一个这么设计的模型是美国GPT 3。GPT 3 当时选定了 6.7B, 13B, 和 175 B。后面复现的人得做对比实验吧,那自然要对标 GPT 3,不然一个 6.7 B,一个 10 B,那对比起来也没什么意义。
所以这些参数的设定可以说是从 GPT 3 传下来的,因为大家都想和 GPT 3 PK 一下。所以那个时候很多模型都是 7B 和 13 B 左右,但是略有差异,也许是 6B,也许是 14B。
后来到了 Meta 手里,又加了 33 B 和 65 B 两个模型。但是 Meta 发布 Llama 之后,模型结构基本都已经固化了,所以基本都是复用 Llama 的结构了,那自然也就延续了 Llama 的模型大小。
从这里我们可以获取到如下信息
GPT 3 训练采用了 tensor parallel 和 pipeline parallel
选择参数大小的原因是为了并行训练的计算和通信效率。
说实话,那个时候可能压根就没考虑过推理的事情,因为训练完了行不行还不知道呢,当时只能先专注于训练的效率。
当然另一个因素也是因为受到老黄显卡GPU的性能的限制。
点评
所以国产大模型是真没有资格说自研这两个字,连参数量都是抄人家美国的。
页:
[1]