谷歌是怎么输掉 LLM 竞赛的

Technical2026-07-04

谷歌发明了 LLM 时代几乎所有关键的东西，然后输掉了 LLM 战争。

这个判断听起来很刺耳，但你把时间和论文摆开看，就是这样。

四件事，谷歌都先做出来了

预训练（2015）

2015 年，谷歌的 Andrew Dai 和 Quoc Le 发了 Semi-Supervised Sequence Learning。核心想法今天人人都懂：先用海量无标注数据预训练，再用少量标注数据微调，效果吊打直接训练。

但那是 2015 年。这个思路是新的。而且那时 Transformer 还没出生，还要再等两年。

2017 年 Transformer 论文出来，Andrew 第二天就去找 Vaswani，说把这个预训练放到 Transformer 上试试。Vaswani 在忙别的，没理他。

理这个思路的是 OpenAI 的 Alec Radford。他把预训练加 Transformer 拼到一块儿，做出了 GPT。GPT 论文的引用里，白纸黑字写着谷歌那篇 2015 年的工作。

谷歌不是没看见。但直到 2020 年 GPT-3 砸下来，谷歌内部才恍然大悟：原来这条路线是越大越好。可在此之前，没人愿意押上亿美元去赌一个不确定的方向。

Transformer（2017）

这篇论文不用多说。它成了后面一切的基础。

谷歌发表了它，却没把全部身家押在这条路线上。OpenAI 押了。

混合专家（2021）

2021 年，GPT-3 把谷歌吓醒了。Andrew 这伙人搞出 GLaM，用的是 MoE 架构：模型很大，但每次只激活一部分专家，算力不会跟着模型大小一起爆炸。

GLaM 比 GPT-3 强。

然后呢？2023 年底 Gemini 1.0 赶鸭子上架，没用 MoE。因为要赶在圣诞节发布，MoE 那套还没调完。结果 Gemini 1.0 一开口就露馅，成了笑话。1.5 才补上。

而 OpenAI 的 GPT-4，2023 年就已经是 MoE 了——至少行里人都这么猜。

强化学习用于语言模型（2018）

2018 年，Andrew 跟 Ian Goodfellow 做 MaskGAN。想法是：光靠训练不够，得让模型通过强化学习自己修正自己。

这条路后来被 OpenAI 走成了 RLHF。ChatGPT 能看懂人脸色，靠的就是它。

四项技术摞一块儿

预训练：谷歌 2015 先做，OpenAI 2018 做成 GPT
Transformer：谷歌 2017 先发，OpenAI 一路用到底
混合专家：谷歌 2021 先搞出 GLaM，OpenAI 2023 先用上
强化学习用于语言模型：谷歌 2018 先做 MaskGAN，OpenAI 走成 RLHF

每一项，谷歌都领先两年到五年。每一项，谷歌都没能在第一波收割。

输的不是技术

把账翻烂了，也看不出谷歌技术差在哪儿。毛病出在四个地方。

第一，没人敢 all in。

GPT-3 之前，谷歌两拨人各干各的。

DeepMind 在打游戏、下围棋。Hassabis 相信：游戏玩到顶，智能自然来。

Brain 这边更散。Jeff Dean 当家，下面人各自为政——有人搞音乐，有人搞视频。做语言的反而人少势孤。

这种自由很好，但代价是火力分散。OpenAI 人少、钱集中、一条路走到黑。两家对打，还没开打就分了输赢。

第二，合并没合好。

2022 年底 ChatGPT 一声炮响，谷歌慌了。对策是把 Brain 和 DeepMind 强行合并。

合并不坏，坏的是合并的方式。当时 Brain 管数据的人说：

“每一个行当，都得配两个掌柜——一个 DeepMind 的，一个 Brain 的。数据行当这样，多模态行当这样，连管家伙的也这样。配完还得再分：这行当里哪半伦敦做，哪半山景城做。这就把工夫全耗没了。”

两个 leader，两套系统，两拨互相看不顺眼的人。公平的安排，往往是最慢的安排。

“肯定有活儿慢下来，肯定有人挪窝……走了不少人。两边都走。”

OpenAI 那边几十号人，一条心。

第三，好东西压着不发。

PaLM 2 的训练出奇地顺。不到一年就做完了。但谷歌不让发，要等 Google I/O。

OpenAI 当然知道 I/O 是哪天。他们提前两个月发布了 GPT-4，成色压过 PaLM 2。等谷歌在 I/O 上捧出 PaLM 2，“最强”的牌子早就被人摘走了。

这不是技术输了，是时间输了。在这个行业，两个月等于让出去两个月。

第四，留不住人。

“硅谷藏不住秘密”不是客气话。

Andrew 的徒弟把 MoE 的手艺带到了 OpenAI。这样的事天天发生：谷歌培养出最懂行的人，这些人被 OpenAI、Anthropic 一拨拨挖走。大公司给不出小公司的翻身盼头。

最讽刺的是，谷歌后来还得花大钱把旧人赎回来——Gemini 2.5 能缓过劲，一部分靠的是把 Noam Shazeer 从 Character.ai 请回来。

谷歌不缺技术、不缺钱、不缺算力。可这行真正的本钱是”懂怎么干的人”，而人是最留不住的。

翻身的秘诀：数据

谷歌后来靠 Gemini 2.0、2.5、3.0 把场子找了回来。这一回拉开差距的，不是模型架构——架构人人会抄——是数据。

不是数据从哪来——大家爬的都是同一片网。是”怎么挑、怎么洗”。网上大半是垃圾，拿垃圾训练，长出来的就是垃圾。Gemini 2.0 换了数据筛选的新方法，筛得更严。

合成数据也很关键。这东西是把模型自己生成的数据再喂回去——炼得好，是 GPT-5 的燃料；炼得坏，模型会把数据里的毛病一字不差地学走，比如满嘴 “delve”，或者算术题全错。

但大公司有个天然的枷锁：

“我感觉到了，大伙儿用的法子，太求稳。几千号人、几千口灶在这桩活上，他们就不敢用太野、太新的招。”

几千人、几千块卡的预训练，不敢上野路子——一炉废了，就是几百万美元。所以谷歌只能守着验过的老法子。可更野的数据方法，能跑得快得多。

这大概也是 Andrew Dai 最后选择离开、去做 Elorian 的原因。

两句话

把这事挤干，剩两句：

第一句：技术和算力大家都有了之后，大模型这行，比的是”有没有人敢把命押在一条路线上”。 这句解释了 OpenAI 凭什么赢、谷歌凭什么输，也解释了如今为什么钱像下雨一样往那些小公司里砸——大伙儿赌的，就是”大公司不敢押的那条路线”。

第二句：下一个分高下的地方，不在模型架构，在数据流水线。 谁把数据挑得最狠、把合成数据使得最巧，谁就赢。而这件事，越野越灵——大公司，恰恰最不敢野。

所以才会冒出 Elorian、DeepSeek 这种又小又密实的公司。不是他们更聪明，是船小，才敢掉头。

谷歌的病，从来不是做不出好东西。是把好东西做出来之后，既没人拍板把它们凑成一个能打的产品，也来不及在对手开打之前，把它递到门口。

技术一直在谷歌手里攥着。可先跑出来的，永远是那个最敢押注的人。

AI Generated

本文内容由 AI 生成，模型为 Kimi 2.6。

隐私提示