Technical

训练算力泄露了,参数量就算得出来吗?算得出来,但前提是你得先假设训练 token 数——而那个假设几乎决定了答案。

前阵子流传一份微软的幻灯片,上面标着 Claude Mythos 的训练总算力:6.1×10²⁷ FLOP,95% 置信区间 5.3×10²⁷7.1×10²⁷(假设 1 像素的测量误差)。

微软幻灯片:Claude Mythos 训练总算力约 6.1×10²⁷ FLOP
网传的微软幻灯片,标注 Claude Mythos 训练总算力约 6.1×10²⁷ FLOP(95% CI 5.3×10²⁷–7.1×10²⁷)。

看到这个数字,所有人的第一反应都是同一个问题:那它到底多大?多少 B 参数?

这是个看似能算、其实没那么容易的问题。下面把方法拆开,顺便说清楚为什么所有公开的「参数量估计」都得打折。

一个公式把两件事连起来

训练算力和模型规模之间,有一个被反复用的粗略关系:

C ≈ 6ND

C 是训练总 FLOP,N 是参数量,D 是训练 token 数。它来自「前向 + 反向每 token 大约 6N 次浮点运算」的近似,是 Chinchilla 那篇 scaling 论文的分析基础。

问题立刻就来了:一个方程,两个未知数(ND)。光知道 C解不出 N

你必须先假设 token 数

这是整件事最容易踩的坑。要拿到一个 N,必须再补一个对 D 的假设。最常见的是 Chinchilla 的 compute-optimal 口径:数据量大约是参数量的 20 倍,D ≈ 20N。代回去:

N ≈ √(C/120)

于是 6.1×10²⁷ FLOP → √(6.1e27/120)7.1T 参数,对应约 143T token。

但要注意这个「7.1T」到底是什么:它不是真实参数量,而是**「如果这个模型按 Chinchilla 意义上算力最优的方式、且是 dense 架构训练,它该有多大」**。真实模型如果是 MoE、或者训练 token 远多于 20 倍参数,这个数就和现实差一截。

套在历史模型上看看准不准

把同一套 √(C/120) 往几个公开模型上套,能看出这个口径到底有多靠谱:

图中模型图上训练 FLOP 粗读折算参数量 (B)备注
AlexNet~4.5×10¹⁷~0.06B公开论文实际约 60M 参数,和折算值基本对上。(NeurIPS 会议录)
AlphaGo Master~3×10²⁰~1.6BRL/搜索系统,不太适合直接和 LLM 的 “B 参数” 类比。
AlphaGo Zero~7×10²⁰~2.4B同上,更多是”按 FLOP 硬折算”的量级。
GPT-3~3.2×10²³~52B公开实际是 175B,因为 GPT-3 不是 Chinchilla-optimal 口径训练。(arXiv)
PaLM~3.8×10²⁴~180B公开实际是 540B,同样比 compute-optimal 折算值大。(Google Research)
GPT-4~2.8×10²⁵~480B官方没公开模型大小/训练 compute 等细节。(OpenAI)
Gemini Ultra~8×10²⁵~810B参数量未公开。(crfm.stanford.edu)
Claude Opus 4.6~2.0×10²⁷~4,100B,即 ~4.1TAnthropic 未公开模型大小/架构细节。(crfm.stanford.edu)
Gemini 3.1 Pro~6×10²⁷~7,100B,即 ~7.1T顶部点很挤,像素读数误差会比较大。
Claude Mythos6.1×10²⁷~7,130B,即 ~7.1T按 95% CI:约 6.6T–7.7T

规律很清楚:老一点的、没按 compute-optimal 训练的模型,折算值会系统性偏小。 反过来说,如果 Mythos / Gemini 3.1 Pro 这类前沿模型也是「过训练」(train on more tokens than optimal),那 7.1T 同样是高估了等效参数——真实激活参数可能更小。

换个 token 假设,答案差一倍

最能说明问题的,是固定 C、只改 DN 怎么变。以 Mythos 的 6.1×10²⁷ 为例,用 N = C/(6D)

训练 token 假设折算参数量
100T10.2T
143T(Chinchilla)7.1T
150T6.8T
200T5.1T

训练 token 从 100T 涨到 200T,参数量估计直接砍半。而前沿实验室现在普遍倾向「小底座喂超多数据」(过训练:宁可一次性多花训练算力,换更低的每次推理成本),所以真实 N 很可能在偏小的那一头。

一个被打脸的黑箱估计法

上面是从 FLOP 这一头反推参数量。还有另一类黑箱估计,干脆不碰 FLOP——最近有个叫 IKP(Incompressible Knowledge Probes)的方法:用一批事实性问题校准开源模型,再用「事实容量」反推闭源模型的参数。它原始结果把 GPT-5.5 放到了 [3.2T, 28.7T],网传中心约 9.7T。

但很快有人复核,发现结论对方法细节极度敏感——换一套校准方式,GPT-5.5 就掉到 1458B,90% 置信区间 [256B, 8311B],GPT-5.5 Pro 是 1471B。中心值从 9.7T 缩到 1.5T,差了一个量级。作者自己也强调,这个单点不该当成确信的真实参数量。

这件事的教训比数字本身重要:黑箱估计的「点估计」几乎不可信,可信的只有量级和区间。

我的判断

GPT-5.5 这类没人公开的模型,我会这么报:

  • 中心估计 ~1.5T
  • 现实区间 1T–4T
  • 9.7T 是激进上沿,不是中心值

这个区间仍然很大,但比一个精确到个位数的假数字诚实得多。

一句话

6.1×10²⁷ FLOP 不唯一对应任何参数量。在 Chinchilla 口径下它约等于 7.1T,但只要训练 token 数换个假设,答案就在 5T–10T 之间漂。

下次看到「某模型算力泄露,算出 XX 万亿参数」,可以直接问三个问题:这个 XX 是按什么 token 假设算的?模型是 dense 还是 MoE?是 compute-optimal 还是过训练?三个里只要有一个不同,XX 就不是同一个量。大多数这类标题里的精确数字,都经不起这三个问题。


参考资料:Chinchilla / Compute-Optimal(Princeton COS 597G 课件) · IKP 原论文 · IKP 复核(LessWrong) · CRFM 模型透明度报告