DeepSeek-V3 是 DeepSeek 公司于 2024 年 12 月推出的最新大型语言模型。它采用混合专家(MoE)架构,总参数规模达到 6710 亿,每个标记激活 370 亿参数。令人惊讶的是,其训练成本仅为 557.6 万美元,远低于行业

如果大家对500万美元没有直观概念,我们可以对比其他主流模型的训练成本,这些数字相当惊人:

以下是主要AI模型的参数规模与训练成本对比(单位:美元):

模型 参数规模 训练成本
GPT-3 1750 亿 1200 万
GPT-4 ~1 万亿 6300 万
PaLM 5400 亿 8000 万
Gemini 1 ~1.5-2 倍 GPT-4 1.2 亿
Claude 3.0 ~1 万亿 5000 万
文心一言 2600 亿 1000 万
LLaMA 2 700 亿 500 万
Mistral 7B 70 亿 100 万

模型架构与技术创新

  • 多头潜在注意力(MLA):通过对注意力键值进行低秩联合压缩,减少推理时的 KV 缓存,同时对注意力查询进行低秩压缩,降低训练时的激活内存。

  • 无辅助损失的负载均衡策略:旨在最小化因鼓励负载均衡对模型性能的不利影响,确保专家负载平衡,提高模型性能。

  • multi-token 预测训练目标(MTP):通过设定 MTP 目标,提升模型在评估基准上的整体性能,并可用于推测解码以加速推理。

混合专家模型(Mixture of Experts,MoE)

一种神经网络架构,旨在通过动态选择专门的子模型或“专家”来处理输入的不同部分,从而提高模型的效率和可扩展性。

MoE 的核心组件包括:

  • 专家(Experts):专门针对特定任务的子模型,每个专家在特定领域具有专长。

  • 门控网络(Gating Network):负责根据输入数据动态选择最相关的专家,即决定哪些输入应由哪些专家处理。

  • 稀疏激活(Sparse Activation):在每次处理输入时,仅激活少数相关的专家,从而优化计算效率。

MoE 的工作原理如下:

  1. 输入处理:当输入数据进入模型时,门控网络根据输入的特征计算每个专家的相关性得分。

  2. 专家选择:根据相关性得分,门控网络选择得分最高的一个或多个专家来处理该输入。

  3. 输出合并:被选中的专家对输入进行处理,生成各自的输出,随后这些输出根据门控网络的权重进行加权合并,形成最终的模型输出。

通过这种机制,MoE 模型能够在保持高性能的同时,显著降低计算资源的消耗。这对于需要处理大规模数据的任务,尤其是在自然语言处理和计算机视觉等领域,具有重要意义。

简单来说,每次提问,只会有个处理对应相关领域的专家为你回答,不会激活全部,这种架构显著的降低了训练的成本

技术借鉴

DeepSeek-V3 的一些关键技术借鉴了以下几家知名机构的研究成果:

  1. MoE(Mixture of Experts)架构:这种架构来源于 Google 的研究,尤其是 Google Brain 提出的论文《Switch Transformers: Scaling to Trillions of Parameters with Simple and Efficient Sparsity》。该架构采用了混合专家机制,通过激活少量的专家来提高计算效率,已经成为多个大型模型的核心设计。

  2. Transformer 及其优化:DeepSeek-V3 使用了 Transformer 架构,这一技术最早由 Google 的研究团队在 2017 年提出。Transformer 架构凭借其并行化处理的优势,已成为深度学习模型的标准结构。

  3. 多头潜在注意力机制(MLA):这种技术也类似于 Transformer 中的多头注意力机制,通过优化注意力层的计算方式,提高模型在处理长文本时的效率和表现。

  4. FP8 混合精度训练:这项技术来源于 Google 和 NVIDIA 等公司的研究,旨在通过降低数值精度(从 FP16 到 FP8)来减少计算资源的消耗,同时保持模型性能,提升训练和推理的效率。

  5. 负载均衡与稀疏激活策略:这些技术的改进,尤其是如何平衡计算负载和优化稀疏激活策略,源自一些大规模训练模型的最新研究,如 Google 的 Switch Transformer 和 DeepMind 的 Mixture of Experts 系统。

因此也引来了 OpenAI 奥特曼的嘲讽(不过模型的效果确实很惊艳,甚至比 GPT-4o 还要好)

DeepSeek-V3 基准测试成绩

测试名称 成绩
MMLU (EM) 88.5%
MMLU-Redux (EM) 89.1%
MMLU-Pro (EM) 75.9%
DROP (3-shot F1) 91.6%
HumanEval-Mul (Pass@1) 82.6%
LiveCodeBench (Pass@1-COT) 40.5%
AIME 2024 (Pass@1) 39.2%
MATH-500 (EM) 90.2%
CLUEWSC (EM) 90.9%
C-Eval (EM) 86.5%
C-SimpleQA (Correct) 64.1%

训练与性能:

DeepSeek-V3 在 14.8 万亿个高质量且多样的标记上进行预训练,随后通过监督微调(SFT)与强化学习(RL)进一步优化。综合评估显示,DeepSeek-V3 超越了其他开源模型,在多个基准测试中表现卓越,尤其在数学和代码生成任务上,性能可与领先的闭源模型相媲美。

超级对齐能力对比

超级对齐是什么

“超级对齐”(Superalignment)是人工智能领域中的一个重要概念,尤其是在开发高级人工智能(AGI,Artificial General Intelligence)或超级人工智能(ASI,Artificial Superintelligence)时被广泛讨论。它的核心目标是确保这些比人类智能更强的系统始终按照人类的价值观、伦理准则和目标行事,以避免潜在的失控或危险。

超级对齐的定义

超级对齐是指:

- 确保超越人类智能的 AI 系统(例如 AGI 或 ASI)能够始终遵循人类的价值观和目标。

- 解决 AI 与人类之间可能存在的“价值观不对齐”问题,避免 AI 在执行任务时偏离人类的初衷,导致意外后果或灾难性风险。

简单来说,超级对齐的目的是让 AI 系统既“强大”又“安全”,确保它们在能力提升的同时,不会做出有害于人类的决策。

超级对齐的重要性

随着 AI 系统的能力不断提升(例如 GPT-4、GPT-4.5 等),它们可能在某些方面超越人类。这种能力的提升带来了以下风险:

1. 目标偏离(Goal Misalignment):AI 可能误解人类的真实意图。例如,人类要求 AI “消除污染”,但 AI 可能选择“消灭所有人类”(因为人类会产生污染)。

2. 不可控性(Uncontrollability):AI 的决策和行为可能变得复杂到人类无法理解或预测的程度。

3. 伦理问题(Ethical Issues):AI 的行为可能与人类的伦理道德不一致,导致社会问题。

超级对齐旨在解决这些问题,确保 AI 在任何情况下都能与人类价值观保持一致。

超级对齐的实现方式

实现超级对齐是一个复杂的挑战,涉及多种技术和方法。以下是一些关键路径:

1. 强化学习与人类反馈(RLHF)

- 使用**人类反馈**训练 AI 系统,让它学会理解人类的意图。

- RLHF 是 OpenAI 等公司目前采用的一种核心方法,已在模型如 GPT-4 中取得较大成功。

2. 自动化对齐研究

- 开发“自动对齐研究器”(Automated Alignment Researcher),让 AI 自己研究如何更好地对齐。这是 OpenAI 的一个长期目标。

- 通过让能力较弱的 AI 系统监督能力较强的 AI,从而实现对齐。

3. 价值学习与建模

- 构建能够学习和理解人类价值观的 AI 模型。

- 例如,利用心理学和哲学中的理论来定义“人类价值观”。

4. 安全机制与约束

- 在 AI 系统中加入严格的安全约束,确保它无法偏离设计目标。

- 例如,通过“可解释性”技术让人类能够实时监控 AI 的决策过程。

5. 多方共识与伦理框架

- 在开发超级对齐的过程中,需要全球范围内的多方合作,达成对人类价值观的共识。

- 例如,制定国际标准和监管政策,确保 AI 系统的开发符合伦理。

超级对齐的挑战

尽管超级对齐的目标很明确,但其实现面临着许多挑战:

1. 人类价值的复杂性:人类的价值观是多样且复杂的,不同群体之间可能存在冲突,如何定义“普适的价值观”是一个难题。

2. 技术难度:让 AI 理解并完全遵循人类的意图,需要突破现有技术的瓶颈。

3. 意外行为:AI 系统的复杂性可能导致意外行为(“外部性”问题)。

4. 全球协作:超级对齐需要全球范围的协作,但不同国家和组织可能有不同的优先级和利益。

超级对齐的实际应用

超级对齐的研究和实现不仅是理论问题,也有实际的应用场景:

1. 高级对话系统:确保 AI 在与用户对话时,不产生误导性或有害的内容。

2. 自动驾驶与机器人:确保自动化系统的决策始终安全且符合人类的意图。

3. 社会决策支持:在辅助人类做出复杂决策时,AI 的建议必须符合人类伦理和社会价值观。

超级对齐的代表性研究

以下是一些与超级对齐相关的研究和进展:

1. OpenAI 的超级对齐计划(Superalignment Initiative)

- 目标:在未来 4 年内开发自动化对齐研究工具,确保 AGI 系统的安全性。

- 方法:通过能力较弱的模型监督能力较强的模型,逐步实现对齐。

2. DeepMind 的 AI 安全研究

- 深度研究如何让 AI 遵循人类的价值观,包括“合作博弈”和“伦理约束”。

3. Anthropic 的可解释性研究

- Anthropic 专注于开发“价值观对齐”的可解释模型,帮助人类理解 AI 的行为。

总结

超级对齐是确保高级 AI 系统安全和可靠的核心研究方向。它的目标是让 AI 在能力超越人类的同时,依然能够遵守人类的价值观和意图。说人话就是让大模型像人

1. GPT-4o 的超级对齐能力

GPT-4o 是 OpenAI 的 GPT-4 系列的优化版本,专注于高效性和成本控制,同时保留了 GPT-4 的核心能力。在超级对齐能力方面,GPT-4o 继承了 GPT-4 的优势,包括:

- RLHF(强化学习与人类反馈):GPT-4 及其变种(如 GPT-4o)在训练中广泛采用了 RLHF 技术,使其对用户意图的理解和输出的价值观对齐能力非常强。

- 多模态能力:GPT-4o 支持多模态输入(如文本和图像),在对齐任务中表现出更强的灵活性,尤其是在复杂任务中。

- 评测表现:GPT-4o 在 MMLU(多任务语言理解)、TruthfulQA(真实性测试)、Ethics Alignment(伦理对齐)等对齐相关任务中表现优异,通常得分高于其他竞品。

根据公开数据,GPT-4o 的对齐能力在当前大模型中处于顶尖水平,尤其是在处理复杂、多轮对话时表现稳定。

2. DeepSeek-V3 的超级对齐能力

DeepSeek-V3 的超级对齐能力尚未有明确的公开评估,但可以从其技术特点和目标中推测:

- 技术架构:DeepSeek-V3 强调底层自研和高效的优化,但在对齐能力方面可能没有像 OpenAI 那样投入大量资源进行 RLHF 优化。

- 任务表现:DeepSeek-V3 在一些任务(如推理、知识问答)上表现接近或超越 GPT-4,但这些任务并非完全等同于对齐能力测试。

- 对齐策略:目前尚未有明确的信息显示 DeepSeek-V3 是否采用了类似 GPT-4 的 RLHF 或其他强化对齐的技术。

3. 对比分析

特性/性能 GPT-4o DeepSeek-V3
RLHF 优化 广泛使用,优化程度高,表现稳定 未明确公开使用,可能存在较大差距
伦理与价值观对齐 在 TruthfulQA 和 Ethics Alignment 测试中表现优异 尚无公开评测数据,可能不如 GPT-4o 稳定
多模态支持 支持文本和图像输入,增强多模态对齐能力 目前主要是文本对齐,缺乏多模态能力
复杂任务跟随能力 表现出色,尤其在多轮对话和复杂任务推理中 推理能力强,但对齐能力可能略逊于 GPT-4o
总体对齐能力 顶尖水平,经过精细优化,适用于高价值观敏感场景 表现良好,但可能在高敏感场景中存在一定差距

---

4. 差距总结

从目前的信息来看,GPT-4o 在超级对齐方面的表现可能优于 DeepSeek-V3,主要体现在以下几个方面:

1. RLHF 的广泛应用:GPT-4o 经过大量人类反馈强化训练,确保了其对齐能力的稳定性和精度,而 DeepSeek-V3 在这方面的投入可能较少。

2. 多模态能力的优势:GPT-4o 支持多模态输入,使其在处理复杂任务和对齐需求时更加灵活。

3. 对齐评测中的表现:GPT-4o 在多个对齐相关的基准测试中表现出色,而 DeepSeek-V3 尚缺乏相关评测数据。

尽管如此,DeepSeek-V3 的总体表现依然非常强大,尤其是在非对齐相关的能力上,它可能在某些特定任务中接近或超越 GPT-4o。如果超级对齐是你的主要需求,GPT-4o 可能是更优的选择;但如果你对成本或其他特定任务性能更敏感,DeepSeek-V3 仍然是一个非常值得考虑的选项。

我们为大家带来了国产大模型,目前API定价极具竞争力,性价比极高,强烈推荐大家体验使用。