推理性能比肩OpenAI,架构设计却更省钱?揭秘DeepSeek-R1的高效秘诀

博文小编

2025-03-31


博文视点Broadview
DeepSeek(深度求索)公司先后开源了大语言基座模型DeepSeek-V3,以及基于DeepSeek-V3 训练、专为复杂推理任务设计的DeepSeek-R1 模型,其以超越或媲美全球顶级的开源及闭源模型的卓越性能,得到了国内外非常广泛的关注。

Nature杂志更是发表了多篇新闻对其进行了相关报道,并于2025 年1 月23 日在一篇名为《中国廉价、开放的人工智能模型DeepSeek 让科学家们兴奋不已》的报道中称“由中国研发的DeepSeek-R1 大模型是一种既具备高性价比又完全开源的‘推理’模型,其性能可与OpenAI 的o1 模型媲美。”

这段文字很好地概括了DeepSeek-R1 模型的三个特点,即“高性价比”、“开源”和“推理”。其中,前两个特点相对容易理解,那么什么是“推理”呢?

01
什么是推理
推理(Reasoning)是指根据已知的信息、事实、规则或前提,通过一定的思维过程和方法,推导出新的结论、判断或知识的认知活动。它是人类思维和智能的核心组成部分,也是人工智能、科学研究和日常决策中的关键能力。
思维链(CoT)技术正是一种基于大语言模型的推理技术。它通过设计提示的方式,引导模型将复杂的问题的求解过程分解为子步骤,从而实现了一种基于大语言模型的推理方法。然而,前人的工作主要集中在设计提示(Prompt)上,而对于模型本身的推理能力并没有进一步提升。随着2024 年9 月,OpenAI-o1模型的发布,通过训练模型提升其自身的推理能力逐渐成为自然语言处理的新一代技术范式,如下图所示。

图 自然语言处理技术新的范式变迁
然而,OpenAI 并没有对外透露任何技术细节,越来越多的公司和研究机构根据自己的理解和猜测快速进行跟进,其中DeepSeek-R1 是目前“复现”效果最好的推理模型。
此外,OpenAI 将通用人工智能(Artificial General Intelligence,AGI)的实现划分为了五个阶段,分别为:对话(Chatbots)、推理(Reasoners)、智能体(Agents)、创新(Innovators)和组织(Organizations)。

其中“推理”是非常重要且基础的一个阶段。那么,DeepSeek-R1 模型是如何实现“推理”,以及如何提高性价比的呢?可以说,其并不是一蹴而就的,期间经历了多个版本的更新与迭代,并采用了众多的创新技术。下图对DeepSeek 系列模型的发展历程、核心技术及关键实验结果对比进行了总结。

图 DeepSeek 系列模型的发展历程、核心技术及关键实验结果对比
总体来讲,早期的DeepSeek-V1 模型还是采用开源模型常用的稠密Transformer架构(类LLama 架构)。从DeepSeek-V2 模型开始,DeepSeek 系列模型全面采用混合专家(Mixture of Experts,MoE)架构,并在此基础上进行了一系列算法和基础设施的创新,极大地提升了模型的训练和解码效率,在节约硬件资源的同时,还提高了模型的性价比,使进一步广泛推广大模型成为可能。
此外,在DeepSeek-R1 模型的早期实验版本DeepSeek-R1-Zero 中,DeepSeek 提出只使用强化学习(Reinforcement Learning,RL)技术,而不使用额外的人工标注推理数据,就可以让模型自主地学会推理过程。
总结DeepSeek-R1 模型的核心贡献,可以归纳为以下三点:
第一,DeepSeek 分别从算法及基础设施两方面对模型架构进行了极致的优化。在算法优化方面,提出了DeepSeekMoE(Mixture of Experts)、多头潜在注意力(MultiheadLatent Attention, MLA)以及多词元预测(Multi-Token Prediction, MTP)三种关键创新算法。在基础设施(Infrastructure)优化方面,则采用了FP8 混合精度训练、DualPipe,以及跨节点All-to-All 通信等技术创新。通过这些算法和工程上的创新,极大地提高了硬件的利用率,可以在规模相对更小的硬件上训练出和OpenAI-o1模型同等能力的大模型,这在一定程度上打破了西方对我国大模型技术和GPU 等硬件的封锁。
第二,在训练DeepSeek-R1 模型之前,DeepSeek 还验证性地训练了DeepSeek-R1-Zero 模型,也就是只使用强化学习算法,不需要任何人工标注的推理过程数据,而只需利用规则获得强化学习的奖励模型,即可让模型学会推理过程。与此同时,DeepSeek 还发现随着训练步骤的增加,模型的推理能力也在逐步提升。这是非常令人惊喜和意外的发现,表明模型可以像学习下棋等游戏一样,自主习得推理能力。这极大地降低了对复杂人工标注数据的依赖及研发成本,提高了模型的研发速度。
第三,由于模型参数的开源,以及通过算法优化提高了解码效率,降低了模型部署的硬件开销,极大地降低了用户使用高性能模型的门槛,进一步促进了大语言模型的普及应用。另外,DeepSeek 不但将相关的模型参数进行了开源,而且撰写了详细的技术报告,对模型的细节进行了介绍,这将极大地推动大模型技术的进步。在DeepSeek的带动下,阿里Qwen2.5-Max 等更多的模型选择开源,OpenAI 也将OpenAI-o3-mini模型免费开放给用户使用。这些模型的开源开放,无论对开发者还是终端用户,都是重大的利好。
下面重点讲解模型架构优化技术。
DeepSeek-R1 以DeepSeek-V3 为基底模型进行训练,继承了过往版本的技术优势。DeepSeek-V3 是一个总参数量为671B,激活参数量为37B 的混合专家模型。接下来,将针对DeepSeek-V3 中使用的模型优化技术进行详细的介绍,其中包括算法优化和基础设施优化两部分内容。

02
算法优化

  1. DeepSeekMoE
    DeepSeek-V3 使用了名为DeepSeekMoE 的混合专家模型作为主要结构。在传统混合专家路由方法的基础上,DeepSeekMoE 进一步引入了细粒度专家分割(FinegrainedExpert Segmentation)及共享专家分离(Shared Expert Isolation)技术,使模型效果获得了进一步提升。DeepSeekMoE 结构如下图所示。

    图 DeepSeekMoE 结构
    传统的混合专家路由方法是从所有专家中选出其中一部分,进行加权求和,从而得到隐含层的输出,如8.1.2节介绍的Mixtral 模型。细粒度专家分割通过将每个专家的FFN 分割成更小的子专家,并相应增加被激活的专家数量,在计算成本不变的情况下,提高了专家的专注度和知识分布的合理性。这种方法能够更好地分解和学习不同类型的知识,从而避免单个专家承载过于多样化的信息。此外,该方法显著提升了专家组合的灵活性,使模型能够通过更多的专家组合来实现更精确的知识学习,从而提升模型的表达能力和泛化能力。
    共享专家分离通过引入专门的共享专家来捕捉和整合不同上下文中的通用知识,减少普通专家之间的参数冗余,使模型具有更高的参数效率。如图3所示,该方法设定一部分专家为共享专家(图中左侧的专家1 至专家Ns),所有的词元总是会被分配给这些专家,从而确保模型可以集中学习共性知识。同时,为了维持计算成本不变,其余普通专家(非共享专家,图中右侧的专家1 至专家Nr)的激活数量相应减少。这样,模型不仅减少了专家之间的重复学习,降低了信息冗余,还能让普通专家更加专注特定任务,提高整体的知识分布质量和泛化能力。DeepSeek-V3 的每层包含1 个共享专家和256 个路由专家,其中共享专家总是被激活,而路由专家针对每个词元激活其中的8 个。
  2. 多头潜在注意力
    在标准的多头注意力机制中,每个词元都需要存储键-值缓存(Key Value Cache)以支持高效的推理。这种缓存的大小通常会随着序列长度的增加呈线性增长,使长序列任务的计算成本和存储成本大幅上升。此外,在训练过程中,由于多头注意力需要存储完整的查询、键、值等激活信息,计算成本和显存占用也成为一大挑战。多查询注意力(MQA,8.2.2节)、分组查询注意力(GQA,8.2.2节)虽然能够减少KV 缓存,但其效果无法与标准的多头注意力相匹敌。
    为了缓解上述问题,多头潜在注意力(Multi-Head Latent Attention, MLA)通过低秩联合压缩(Low-rank Joint Compression)机制,减少KV 缓存的存储需求,并优化训练时的计算效率,从而在保持性能的同时大幅降低计算成本和存储成本。多头潜在注意力主要通过低秩KV 压缩和低秩查询压缩来优化多头注意力的计算效率,同时保持模型性能。多头潜在注意力机制如下图所示。

    图4 多头潜在注意力机制
  3. 多词元预测
    常规大语言模型使用的单步预测仅优化模型对下一个词元的预测(如GPT 模型),存在训练信号稀疏、数据利用效率低、缺乏对未来预测词元的全局规划能力等问题。受文献的启发,DeepSeek-V3 引入了多词元预测(Multi-Token Prediction,MTP)技术,通过将预测范围扩展至多个未来词元,以缓解上述单步预测存在的问题。同时,相较于并行预测方案,多词元预测采用顺序预测方式,因此能够保持完整的因果链,确保预测的稳定性和一致性。多词元预测方法如下图所示。

    图 多词元预测方法

03
基础设施优化
上述算法优化可以使DeepSeek 模型更高效地进行训练和解码,基础设施优化则是为算法进行保驾护航,使相关算法能够发挥最大化作用。尤其对于超大规模的大语言模型的训练,一套稳定可靠的训练基础设施和配套技术是模型成功训练的基石。
下面介绍DeepSeek 系列模型在基础设施方面的重点优化,其中包括FP8 混合精度训练、DualPipe 并行技术、跨节点All-to-All 通信优化。
1.FP8 混合精度训练
低精度训练(Low-Precision Training)已成为提高计算效率、降低存储开销的大模型训练的关键技术。然而,FP8 训练仍然面临激活值、权重和梯度中的异常值问题,容易导致数值不稳定。此外,当前低精度量化方法主要集中于解码阶段,而在大语言模型的预训练中,如何在保持训练稳定性的同时提高计算效率仍是一个挑战。为此,DeepSeek-V3 采用FP8 混合精度训练框架,以优化存储、计算和通信效率,其中包括混合精度计算、细粒度量化、FP8 乘法精度优化、低精度存储与通信技术。FP8 混合精度训练的整体框架如下图所示。

图 FP8 混合精度训练框架示意图

  1. DualPipe 并行技术
    DeepSeek-V3 的训练涉及流水线并行(PP)、专家并行(EP)和ZeRO-1数据并行(DP),其中跨节点的专家并行(EP)会带来较高的通信开销,使计算和通信的比例接近1:1,导致计算效率严重下降。为了解决这个问题,DeepSeek-V3采用了一种新的流水线并行算法DualPipe,用于优化计算与通信的重叠,提高训练效率,并减少流水线气泡。这项技术还增强了大语言模型在跨节点训练时的可扩展性,使其能够在更大规模的分布式环境中高效运行。图7给出了DualPipe 并行调度的一个示例,其中包含8 个流水线并行层级(Ranks)和20 个批次,沿两个方向执行。调度(Dispatch)、MLP、All-to-All 组合四个部分。对于后向计算,注意力和MLP进一步细分为输入梯度计算和权重梯度计算,类似于ZeroBubble 方法。与此同时,DualPipe 通过手动调整GPU SM 资源的分配,在计算和通信之间找到最优平衡,使Pipeline 和All-to-All 通信完全隐藏在计算过程中,最大程度地减少通信开销。在调度策略上,DualPipe 采用双向流水线,即从流水线两端同时输入批次,确保通信和计算能够充分重叠。应用这种策略后,即使随着模型规模扩大,只要保持计算与通信的比例恒定,就能实现高效的专家并行,而不会显著增加All-to-All 的通信开销。

    图 DualPipe 并行调度示例
  2. 跨节点All-to-All 通信
    优化虽然DualPipe 并行技术减少了流水线停滞,提高了计算效率,但在专家并行(EP)训练中,All-to-All 通信仍是影响计算吞吐量的主要瓶颈,尤其在跨节点GPU之间,通信延迟可能接近计算时间。为此,DeepSeek-V3 采用了一种高效的跨节点All-to-All 通信优化策略,以最大化带宽利用率,减少通信对计算的干扰,从而提高混合专家模型训练的可扩展性和整体的计算效率。
    在混合专家模型训练中,每个词元需要动态路由到不同的专家进行计算,而这些专家可能分布在多个GPU 甚至多个计算节点上,导致高昂的All-to-All 通信开销。为优化GPU 互联带宽利用并降低通信负担,DeepSeek-V3 采用自适应路由策略和Warp 专用通信优化机制。
    最后给出常见开源大语言模型的训练设备、训练卡时、成本等的对比,如表1所示。通过对比可以得知,DeepSeek-V3 在具备较大模型参数量的前提下,实现了具有高性价比的训练方案,使训练成本远低于Llama 系列模型,并且在各类任务上获得了更加优异的效果。由于上述特性,使DeepSeek 在2025 年伊始得到了国内外业界的广泛关注。
    表1 常见大语言模型的训练成本对比


    本文节选自《自然语言处理:基于大语言模型的方法》(车万翔,郭江,崔一鸣,著;刘挺,主审. 电子工业出版社,2025.3),更多相关精彩内容,欢迎阅读本书!

读者评论

相关博文

  • 社区使用反馈专区

    陈晓猛 2016-10-04

    尊敬的博文视点用户您好: 欢迎您访问本站,您在本站点访问过程中遇到任何问题,均可以在本页留言,我们会根据您的意见和建议,对网站进行不断的优化和改进,给您带来更好的访问体验! 同时,您被采纳的意见和建议,管理员也会赠送您相应的积分...

    陈晓猛 2016-10-04
    5700 747 3 7
  • 迎战“双12”!《Unity3D实战核心技术详解》独家预售开启!

    陈晓猛 2016-12-05

    时隔一周,让大家时刻挂念的《Unity3D实战核心技术详解》终于开放预售啦! 这本书不仅满足了很多年轻人的学习欲望,并且与实际开发相结合,能够解决工作中真实遇到的问题。预售期间优惠多多,实在不容错过! Unity 3D实战核心技术详解 ...

    陈晓猛 2016-12-05
    3427 36 0 1
  • czk 2017-07-29
    6277 28 0 1