博文视点Broadview
DeepSeek(深度求索)公司先后开源了大语言基座模型DeepSeek-V3,以及基于DeepSeek-V3 训练、专为复杂推理任务设计的DeepSeek-R1 模型,其以超越或媲美全球顶级的开源及闭源模型的卓越性能,得到了国内外非常广泛的关注。
Nature杂志更是发表了多篇新闻对其进行了相关报道,并于2025 年1 月23 日在一篇名为《中国廉价、开放的人工智能模型DeepSeek 让科学家们兴奋不已》的报道中称“由中国研发的DeepSeek-R1 大模型是一种既具备高性价比又完全开源的‘推理’模型,其性能可与OpenAI 的o1 模型媲美。”
这段文字很好地概括了DeepSeek-R1 模型的三个特点,即“高性价比”、“开源”和“推理”。其中,前两个特点相对容易理解,那么什么是“推理”呢?
01
什么是推理
推理(Reasoning)是指根据已知的信息、事实、规则或前提,通过一定的思维过程和方法,推导出新的结论、判断或知识的认知活动。它是人类思维和智能的核心组成部分,也是人工智能、科学研究和日常决策中的关键能力。
思维链(CoT)技术正是一种基于大语言模型的推理技术。它通过设计提示的方式,引导模型将复杂的问题的求解过程分解为子步骤,从而实现了一种基于大语言模型的推理方法。然而,前人的工作主要集中在设计提示(Prompt)上,而对于模型本身的推理能力并没有进一步提升。随着2024 年9 月,OpenAI-o1模型的发布,通过训练模型提升其自身的推理能力逐渐成为自然语言处理的新一代技术范式,如下图所示。
图 自然语言处理技术新的范式变迁
然而,OpenAI 并没有对外透露任何技术细节,越来越多的公司和研究机构根据自己的理解和猜测快速进行跟进,其中DeepSeek-R1 是目前“复现”效果最好的推理模型。
此外,OpenAI 将通用人工智能(Artificial General Intelligence,AGI)的实现划分为了五个阶段,分别为:对话(Chatbots)、推理(Reasoners)、智能体(Agents)、创新(Innovators)和组织(Organizations)。
其中“推理”是非常重要且基础的一个阶段。那么,DeepSeek-R1 模型是如何实现“推理”,以及如何提高性价比的呢?可以说,其并不是一蹴而就的,期间经历了多个版本的更新与迭代,并采用了众多的创新技术。下图对DeepSeek 系列模型的发展历程、核心技术及关键实验结果对比进行了总结。
图 DeepSeek 系列模型的发展历程、核心技术及关键实验结果对比
总体来讲,早期的DeepSeek-V1 模型还是采用开源模型常用的稠密Transformer架构(类LLama 架构)。从DeepSeek-V2 模型开始,DeepSeek 系列模型全面采用混合专家(Mixture of Experts,MoE)架构,并在此基础上进行了一系列算法和基础设施的创新,极大地提升了模型的训练和解码效率,在节约硬件资源的同时,还提高了模型的性价比,使进一步广泛推广大模型成为可能。
此外,在DeepSeek-R1 模型的早期实验版本DeepSeek-R1-Zero 中,DeepSeek 提出只使用强化学习(Reinforcement Learning,RL)技术,而不使用额外的人工标注推理数据,就可以让模型自主地学会推理过程。
总结DeepSeek-R1 模型的核心贡献,可以归纳为以下三点:
第一,DeepSeek 分别从算法及基础设施两方面对模型架构进行了极致的优化。在算法优化方面,提出了DeepSeekMoE(Mixture of Experts)、多头潜在注意力(MultiheadLatent Attention, MLA)以及多词元预测(Multi-Token Prediction, MTP)三种关键创新算法。在基础设施(Infrastructure)优化方面,则采用了FP8 混合精度训练、DualPipe,以及跨节点All-to-All 通信等技术创新。通过这些算法和工程上的创新,极大地提高了硬件的利用率,可以在规模相对更小的硬件上训练出和OpenAI-o1模型同等能力的大模型,这在一定程度上打破了西方对我国大模型技术和GPU 等硬件的封锁。
第二,在训练DeepSeek-R1 模型之前,DeepSeek 还验证性地训练了DeepSeek-R1-Zero 模型,也就是只使用强化学习算法,不需要任何人工标注的推理过程数据,而只需利用规则获得强化学习的奖励模型,即可让模型学会推理过程。与此同时,DeepSeek 还发现随着训练步骤的增加,模型的推理能力也在逐步提升。这是非常令人惊喜和意外的发现,表明模型可以像学习下棋等游戏一样,自主习得推理能力。这极大地降低了对复杂人工标注数据的依赖及研发成本,提高了模型的研发速度。
第三,由于模型参数的开源,以及通过算法优化提高了解码效率,降低了模型部署的硬件开销,极大地降低了用户使用高性能模型的门槛,进一步促进了大语言模型的普及应用。另外,DeepSeek 不但将相关的模型参数进行了开源,而且撰写了详细的技术报告,对模型的细节进行了介绍,这将极大地推动大模型技术的进步。在DeepSeek的带动下,阿里Qwen2.5-Max 等更多的模型选择开源,OpenAI 也将OpenAI-o3-mini模型免费开放给用户使用。这些模型的开源开放,无论对开发者还是终端用户,都是重大的利好。
下面重点讲解模型架构优化技术。
DeepSeek-R1 以DeepSeek-V3 为基底模型进行训练,继承了过往版本的技术优势。DeepSeek-V3 是一个总参数量为671B,激活参数量为37B 的混合专家模型。接下来,将针对DeepSeek-V3 中使用的模型优化技术进行详细的介绍,其中包括算法优化和基础设施优化两部分内容。
02
算法优化
03
基础设施优化
上述算法优化可以使DeepSeek 模型更高效地进行训练和解码,基础设施优化则是为算法进行保驾护航,使相关算法能够发挥最大化作用。尤其对于超大规模的大语言模型的训练,一套稳定可靠的训练基础设施和配套技术是模型成功训练的基石。
下面介绍DeepSeek 系列模型在基础设施方面的重点优化,其中包括FP8 混合精度训练、DualPipe 并行技术、跨节点All-to-All 通信优化。
1.FP8 混合精度训练
低精度训练(Low-Precision Training)已成为提高计算效率、降低存储开销的大模型训练的关键技术。然而,FP8 训练仍然面临激活值、权重和梯度中的异常值问题,容易导致数值不稳定。此外,当前低精度量化方法主要集中于解码阶段,而在大语言模型的预训练中,如何在保持训练稳定性的同时提高计算效率仍是一个挑战。为此,DeepSeek-V3 采用FP8 混合精度训练框架,以优化存储、计算和通信效率,其中包括混合精度计算、细粒度量化、FP8 乘法精度优化、低精度存储与通信技术。FP8 混合精度训练的整体框架如下图所示。
图 FP8 混合精度训练框架示意图
尊敬的博文视点用户您好: 欢迎您访问本站,您在本站点访问过程中遇到任何问题,均可以在本页留言,我们会根据您的意见和建议,对网站进行不断的优化和改进,给您带来更好的访问体验! 同时,您被采纳的意见和建议,管理员也会赠送您相应的积分...
时隔一周,让大家时刻挂念的《Unity3D实战核心技术详解》终于开放预售啦! 这本书不仅满足了很多年轻人的学习欲望,并且与实际开发相结合,能够解决工作中真实遇到的问题。预售期间优惠多多,实在不容错过! Unity 3D实战核心技术详解 ...
如题 ...
读者评论