谷歌是怎么输掉 LLM 竞赛的
谷歌发明了 LLM 时代几乎所有关键的东西,然后输掉了 LLM 战争。谷歌发明了 LLM 时代几乎所有关键的东西,然后输掉了 LLM 战争。
这个判断听起来很刺耳,但你把时间和论文摆开看,就是这样。
四件事,谷歌都先做出来了
预训练(2015)
2015 年,谷歌的 Andrew Dai 和 Quoc Le 发了 Semi-Supervised Sequence Learning。核心想法今天人人都懂:先用海量无标注数据预训练,再用少量标注数据微调,效果吊打直接训练。
但那是 2015 年。这个思路是新的。而且那时 Transformer 还没出生,还要再等两年。
2017 年 Transformer 论文出来,Andrew 第二天就去找 Vaswani,说把这个预训练放到 Transformer 上试试。Vaswani 在忙别的,没理他。
理这个思路的是 OpenAI 的 Alec Radford。他把预训练加 Transformer 拼到一块儿,做出了 GPT。GPT 论文的引用里,白纸黑字写着谷歌那篇 2015 年的工作。
谷歌不是没看见。但直到 2020 年 GPT-3 砸下来,谷歌内部才恍然大悟:原来这条路线是越大越好。可在此之前,没人愿意押上亿美元去赌一个不确定的方向。
Transformer(2017)
这篇论文不用多说。它成了后面一切的基础。
谷歌发表了它,却没把全部身家押在这条路线上。OpenAI 押了。
混合专家(2021)
2021 年,GPT-3 把谷歌吓醒了。Andrew 这伙人搞出 GLaM,用的是 MoE 架构:模型很大,但每次只激活一部分专家,算力不会跟着模型大小一起爆炸。
GLaM 比 GPT-3 强。
然后呢?2023 年底 Gemini 1.0 赶鸭子上架,没用 MoE。因为要赶在圣诞节发布,MoE 那套还没调完。结果 Gemini 1.0 一开口就露馅,成了笑话。1.5 才补上。
而 OpenAI 的 GPT-4,2023 年就已经是 MoE 了——至少行里人都这么猜。
强化学习用于语言模型(2018)
2018 年,Andrew 跟 Ian Goodfellow 做 MaskGAN。想法是:光靠训练不够,得让模型通过强化学习自己修正自己。
这条路后来被 OpenAI 走成了 RLHF。ChatGPT 能看懂人脸色,靠的就是它。
四项技术摞一块儿
- 预训练:谷歌 2015 先做,OpenAI 2018 做成 GPT
- Transformer:谷歌 2017 先发,OpenAI 一路用到底
- 混合专家:谷歌 2021 先搞出 GLaM,OpenAI 2023 先用上
- 强化学习用于语言模型:谷歌 2018 先做 MaskGAN,OpenAI 走成 RLHF
每一项,谷歌都领先两年到五年。每一项,谷歌都没能在第一波收割。
输的不是技术
把账翻烂了,也看不出谷歌技术差在哪儿。毛病出在四个地方。
第一,没人敢 all in。
GPT-3 之前,谷歌两拨人各干各的。
DeepMind 在打游戏、下围棋。Hassabis 相信:游戏玩到顶,智能自然来。
Brain 这边更散。Jeff Dean 当家,下面人各自为政——有人搞音乐,有人搞视频。做语言的反而人少势孤。
这种自由很好,但代价是火力分散。OpenAI 人少、钱集中、一条路走到黑。两家对打,还没开打就分了输赢。
第二,合并没合好。
2022 年底 ChatGPT 一声炮响,谷歌慌了。对策是把 Brain 和 DeepMind 强行合并。
合并不坏,坏的是合并的方式。当时 Brain 管数据的人说:
“每一个行当,都得配两个掌柜——一个 DeepMind 的,一个 Brain 的。数据行当这样,多模态行当这样,连管家伙的也这样。配完还得再分:这行当里哪半伦敦做,哪半山景城做。这就把工夫全耗没了。”
两个 leader,两套系统,两拨互相看不顺眼的人。公平的安排,往往是最慢的安排。
“肯定有活儿慢下来,肯定有人挪窝……走了不少人。两边都走。”
OpenAI 那边几十号人,一条心。
第三,好东西压着不发。
PaLM 2 的训练出奇地顺。不到一年就做完了。但谷歌不让发,要等 Google I/O。
OpenAI 当然知道 I/O 是哪天。他们提前两个月发布了 GPT-4,成色压过 PaLM 2。等谷歌在 I/O 上捧出 PaLM 2,“最强”的牌子早就被人摘走了。
这不是技术输了,是时间输了。在这个行业,两个月等于让出去两个月。
第四,留不住人。
“硅谷藏不住秘密”不是客气话。
Andrew 的徒弟把 MoE 的手艺带到了 OpenAI。这样的事天天发生:谷歌培养出最懂行的人,这些人被 OpenAI、Anthropic 一拨拨挖走。大公司给不出小公司的翻身盼头。
最讽刺的是,谷歌后来还得花大钱把旧人赎回来——Gemini 2.5 能缓过劲,一部分靠的是把 Noam Shazeer 从 Character.ai 请回来。
谷歌不缺技术、不缺钱、不缺算力。可这行真正的本钱是”懂怎么干的人”,而人是最留不住的。
翻身的秘诀:数据
谷歌后来靠 Gemini 2.0、2.5、3.0 把场子找了回来。这一回拉开差距的,不是模型架构——架构人人会抄——是数据。
不是数据从哪来——大家爬的都是同一片网。是”怎么挑、怎么洗”。网上大半是垃圾,拿垃圾训练,长出来的就是垃圾。Gemini 2.0 换了数据筛选的新方法,筛得更严。
合成数据也很关键。这东西是把模型自己生成的数据再喂回去——炼得好,是 GPT-5 的燃料;炼得坏,模型会把数据里的毛病一字不差地学走,比如满嘴 “delve”,或者算术题全错。
但大公司有个天然的枷锁:
“我感觉到了,大伙儿用的法子,太求稳。几千号人、几千口灶在这桩活上,他们就不敢用太野、太新的招。”
几千人、几千块卡的预训练,不敢上野路子——一炉废了,就是几百万美元。所以谷歌只能守着验过的老法子。可更野的数据方法,能跑得快得多。
这大概也是 Andrew Dai 最后选择离开、去做 Elorian 的原因。
两句话
把这事挤干,剩两句:
第一句:技术和算力大家都有了之后,大模型这行,比的是”有没有人敢把命押在一条路线上”。 这句解释了 OpenAI 凭什么赢、谷歌凭什么输,也解释了如今为什么钱像下雨一样往那些小公司里砸——大伙儿赌的,就是”大公司不敢押的那条路线”。
第二句:下一个分高下的地方,不在模型架构,在数据流水线。 谁把数据挑得最狠、把合成数据使得最巧,谁就赢。而这件事,越野越灵——大公司,恰恰最不敢野。
所以才会冒出 Elorian、DeepSeek 这种又小又密实的公司。不是他们更聪明,是船小,才敢掉头。
谷歌的病,从来不是做不出好东西。是把好东西做出来之后,既没人拍板把它们凑成一个能打的产品,也来不及在对手开打之前,把它递到门口。
技术一直在谷歌手里攥着。可先跑出来的,永远是那个最敢押注的人。
AI Generated
本文内容由 AI 生成,模型为 Kimi 2.6。