11月18日Google发布Gemini 3的那个周末,整个科技圈都炸了。
最戏剧性的一幕是Salesforce的CEO Marc Benioff在X上发了条推:
"Holy shit. 我每天用ChatGPT用了整整三年。刚试了两小时Gemini 3,我不回去了。这个飞跃太疯狂了——推理、速度、图像、视频...一切都更清晰更快。感觉世界又变了。"
这可不是普通用户的兴奋发言。Benioff一个月前刚刚宣布Salesforce和OpenAI扩大合作,当时还在夸ChatGPT能给企业带来"同样的智能和即时性"。一个月后就公开"叛变",这事儿传开后浏览量超过320万。
更有意思的是OpenAI那边的反应。据The Information拿到的内部备忘录,Sam Altman在Gemini 3发布前就给员工打预防针了。他在信里说要准备好迎接"rough vibes"(糟糕的氛围),承认Google的进步可能会给OpenAI"制造一些暂时的经济逆风"。这话说得够直白——我们可能要被压着打一阵子了。
Altman还说:
"从各方面来看,Google最近的工作都非常出色。"
这种坦率在AI圈挺少见的。毕竟OpenAI估值5000亿美元,年收入才130亿,这种估值逻辑全靠一个假设:他们的技术领先优势能一直保持。现在这个假设被动摇了。
3万亿参数,但是只用2000亿
Gemini 3最核心的技术叫稀疏混合专家架构(Sparse MoE)。虽然Google没公布具体数字,但根据定价和性能反推,分析机构估计总参数量在3万亿左右,但每次推理只激活150-200亿。
这个设计很聪明。传统大模型就像一个全科医生,你问什么都要动用全部知识库。Gemini 3更像一家医院——有一堆专科医生,你问皮肤问题就只叫皮肤科的出来,问心脏问题再叫心血管科的。据说内部代号叫"Conductor"(指挥家),会根据问题复杂度智能调度专家。
更重要的是原生多模态架构。Claude和GPT都是先做个文本模型,然后再"贴"上视觉、语音模块。Gemini 3从一开始就把文本、图像、视频、代码放在同一个理解空间里训练。你给它画个草图,它能直接生成代码;给它一段视频,它能边看边解释物理原理。这种"原生理解"比"跨模态翻译"要自然得多。
训练基础设施也升级了。整个模型在Google自研的第七代Trillium TPU上训练,相比上一代峰值算力提升4.7倍。这给了Google巨大的成本优势——从芯片到训练框架全是自己的,不用给Nvidia交"过路费"。
某些领域真是碾压
我知道大家对benchmark都审美疲劳了,但这次的数字确实夸张。看看官方Model Card里的对比:
更牛的是2025年国际数学奥林匹克竞赛。Gemini Deep Think做对了6道题里的5道,拿了35分(满分42),金牌水平。关键是完全用自然语言做的,不像以前的AI还得先把题目翻译成形式化语言。
强化学习玩出了新花样
Gemini 3在推理能力上的质变,核心在于Google DeepMind开发的新型强化学习技术。
传统训练方式
以往训练AI解答数学题时,只要最终答案正确就会给予奖励。而Gemini 3采用了“过程监督”机制——在推理过程中,每正确完成一步都会给予奖励。这种方法有效防止了AI通过“猜测答案”来投机取巧,真正学会了逐步推理的能力。
技术融合
更进一步的突破是,Gemini 3将AlphaProof(数学证明系统)和AlphaGeometry 2(几何推理系统)的技术直接整合进主模型。训练数据中包含了超过3亿条定理和证明。可以这样理解:普通AI如同一般学生,而Gemini 3则像是完成了3亿道奥数题的竞赛选手。
并行思维
Deep Think 模式的"并行思维"功能具有独特优势:
传统AI的思考方式
采用线性思考模式
先有想法A,然后是想法B,接着是想法C
思考过程单一且顺序固定
Deep Think模式的特点
能够同时尝试多条思路
让不同思路之间相互讨论
通过比较选择最优解决方案
形象比喻 这种方式就像一群人开会讨论问题,通过集思广益,比一个人独自思考效率更高,结果也更全面。
思维签名
另一个巧妙的技术细节是“思维签名”。当AI调用外部工具(如搜索引擎、计算器)时,如何保持思路的连贯性?Gemini 3会生成一个加密的“保存点”,在工具返回结果后能够无缝衔接之前的推理链条。
实测表现
实际测试结果令人印象深刻:在Deep Think模式下,ARC-AGI-2达到45.1%(普通模式为31.1%),GPQA Diamond达到93.8%,在工具辅助下,AIME 2025数学竞赛中能够获得满分成绩。
100万token上下文的工程实现
Gemini 3支持100万token输入(大概70万汉字,10部长篇小说),64K token输出。这在工程上挺难的。
核心技术是"交错式局部/全局注意力"。每6层注意力里,5层只看附近1024个token(局部),1层看全文(全局)。这样既能抓住长距离的关键信息,又不会像传统Transformer那样内存爆炸。
还做了位置编码优化。全局层的RoPE基频从10k拉到1M,让模型能"记住"更长文本里的位置关系。
实测"大海捞针"测试(100万token里藏个信息让AI去找),准确率超过99.7%。甚至把文本扩到1000万token,准确率还能保持。不过官方Model Card也坦诚,超过12-15万token之后准确性会下降,JSON格式遵从率只有84%左右。
64K输出的设计很巧妙。推理模型可能产生几万token的思考过程,你可以通过thinking_budget参数设置"思考预算",从1024到32768不等。实验显示预算越高,准确率越高——AIME 2025数学题从65%提升到90%。
市场已经用脚投票
Marc Benioff 的公开“叛变”只是开始。其他硅谷大佬也都发声了。
OpenAI 联合创始人、前特斯拉 AI 总监 Andrej Karpathy 表示,Gemini 3 具有“非常扎实的日常驱动潜力”,并称其“明显是 tier 1 LLM”。
Stripe CEO Patrick Collison 发推称,Gemini 3 为他制作了一个“交互式网页,总结了遗传学的 10 大突破”,并评价“挺酷的”。
就连 Sam Altman 表面上也不得不客气一句:“恭喜 Google,Gemini 3 看起来是个很棒的模型。”但私下里,The Information 拿到的备忘录显示,他告诉员工 OpenAI“正在快速追赶”,要专注于“非常激进的赌注”,即使这意味着“在当前体系下暂时落后”。
市场反应更为直接:
Alphabet 股价发布后上涨 6%,市值达到 3.82 万亿美元,今年累计涨幅近 70%。
与 OpenAI 绑定的公司则遭受重挫:
AMD 从 10 月高点下跌 23%;
Oracle 从 9 月高点下跌 39%。
更有意思的是:
GPT-5.1 提前 6 天发布,明显是被 Gemini 3 所逼。
有报道称 Meta 正在谈判使用 Google 的 TPU,直接导致 Nvidia 股价下跌 3.6%。
整个 AI 芯片格局可能因此改变。
安全性和局限:Model Card里的坦诚
Google这次的Model Card写得挺坦诚,没藏着掖着。
安全性方面,相比Gemini 2.5 Pro:文本到文本安全性提升10.4%,图像到文本安全性提升3.1%,语气改进7.9%,无理由拒绝减少3.7%。这些是自动化测试数据。
人工红队测试(专门的团队想办法突破安全限制)显示,儿童安全方面达到了发布标准,整体安全性跟前代相当或更好。
但也明确了两个主要风险:
越狱漏洞(jailbreak vulnerability)——虽然比前代改善了,但仍然是个开放性研究问题
多轮对话中可能出现性能下降
前沿安全框架(Frontier Safety Framework)评估显示,Gemini 3在CBRN(化学生物放射核)、网络安全、有害操纵、机器学习研发、错位(Misalignment)等领域都没有达到"关键能力等级"(CCL)。换句话说,还不至于造成系统性风险。
已知局限也很明确:
会产生幻觉(hallucination)
偶尔会慢或超时
知识截止日期是2025年1月
这真的是"ChatGPT时刻"吗?
说实话,我觉得Gemini 3确实是个里程碑,但还不至于颠覆整个游戏规则。
它的定位很明确:科学推理、视觉理解、长期任务规划。ScreenSpot-Pro测试72.7% vs GPT-5.1的3.5%,这不是小优势,是碾压。如果你要做数据分析、科学计算、复杂的多步骤工作流,Gemini 3确实是目前最强的。
但要写小说、聊天、做创意,GPT和Claude的体验可能还是更好。有人吐槽Gemini 3写东西"像编辑改稿,少了点魔法感",这个评价挺准的。
Gemini联合负责人Oriol Vinyals说了句狠话:"预训练的规模扩展远没到天花板。2.5到3.0之间的差距是我们见过的最大的。"翻译过来就是——这还不是终点,后面还有更大的。
LMArena的CTO Wei-Lin Chiang评价说,Gemini 3的发布"不只是排行榜的洗牌",而是"说明AI军备竞赛正在被那些能够更抽象地推理、更一致地泛化、在越来越多样化的真实世界评估中提供可靠结果的模型所塑造"。
OpenAI现在的处境挺微妙的。5000亿美元估值,年收入130亿,年亏损50亿,年烧钱80亿。这种商业模式能持续,全靠投资人相信他们的技术领先。现在这个领先优势在动摇。
The Information的备忘录里还透露,OpenAI正在开发代号"Shallotpeat"的新模型,试图解决预训练过程中的缺陷。Altman在信里说公司要专注"让研究团队真正实现超级智能",即使这意味着"暂时落后"。
这话听起来有点像战略性放弃短期竞争,押注长期突破。但问题是,钱能撑多久?
新篇章才刚开始
2025年的AI战场,Gemini 3最大的意义可能不是"打败了ChatGPT",而是证明了一件事:这场竞赛远未结束,Google还有底牌。
从技术上看,五大突破确实硬核:稀疏MoE实现容量与效率解耦,过程监督RL培养可验证推理链,并行思维突破线性推理局限,交错注意力支撑超长上下文,原生多模态消除跨模态损耗。
从商业上看,Google的全栈优势开始显现——自己的芯片(TPU),自己的训练框架(JAX),自己的分发渠道(搜索、Gmail、Android),6.5亿月活用户。Gemini 3发布当天就覆盖了6.5亿用户,ChatGPT虽然有7亿周活,但付费转化率只有4-10%。
OpenAI、Anthropic肯定在憋大招。GPT-5.1提前发布就是证明。但Gemini 3至少告诉所有人——AI的"ChatGPT时代"结束了,多极竞争的新时代来了。
对用户来说,这是好事。模型越来越强,价格越来越便宜(Gemini 3定价是$2/$12每百万tokens,跟竞品差不多),选择越来越多。关键是根据场景选对工具:科学推理和长期代理任务选Gemini 3,代码调试和可解释性考虑Claude,创意写作和自然对话GPT-5.1还能打。
预训练的天花板在哪?没人知道。但至少现在,天花板还看不到顶。