机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 93|回复: 0

国产大模型的参数量为什么设计成 7B,13B,33B

[复制链接]

2万

主题

2万

帖子

17万

积分

超级版主

Rank: 8Rank: 8

积分
176325
发表于 2024-11-29 12:20:05 | 显示全部楼层 |阅读模式
第一个这么设计的模型是美国GPT 3。
GPT 3 当时选定了 6.7B, 13B, 和 175 B。后面复现的人得做对比实验吧,那自然要对标 GPT 3,不然一个 6.7 B,一个 10 B,那对比起来也没什么意义。

所以这些参数的设定可以说是从 GPT 3 传下来的,因为大家都想和 GPT 3 PK 一下。所以那个时候很多模型都是 7B 和 13 B 左右,但是略有差异,也许是 6B,也许是 14B。

后来到了 Meta 手里,又加了 33 B 和 65 B 两个模型。但是 Meta 发布 Llama 之后,模型结构基本都已经固化了,所以基本都是复用 Llama 的结构了,那自然也就延续了 Llama 的模型大小。

从这里我们可以获取到如下信息

GPT 3 训练采用了 tensor parallel 和 pipeline parallel
选择参数大小的原因是为了并行训练的计算和通信效率。
说实话,那个时候可能压根就没考虑过推理的事情,因为训练完了行不行还不知道呢,当时只能先专注于训练的效率。

当然另一个因素也是因为受到老黄显卡GPU的性能的限制。

点评
所以国产大模型是真没有资格说自研这两个字,连参数量都是抄人家美国的。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2024-12-24 07:03 , Processed in 0.105888 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表