DeepSeek最新论文重磅发布！NSA是否是“缺卡”的无奈之举？

博文视点Broadview
以下文章来源于深蓝AI ，作者梁松

深蓝AI .
专注于人工智能、机器人与自动驾驶的学习平台。
编辑｜梁松
DeepSeek 新论文来了！创始人梁文锋挂名并由他直接（亲自）提交，可见DS对这篇论文的重视！
NSA（Native Sparse Attention）为新型稀疏注意力机制。通过针对现代硬件的优化设计，NSA 可以加快推理速度，同时降低预训练成本，而不会影响性能。
那么，NSA是如何实现解码速度提高11.6倍，前向传播、反向传播分别加速 9.0 倍和 6.0 倍的呢？

论文标题：Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
论文链接：https://arxiv.org/abs/2502.11089

DeepSeek NSA机制的核心优势
近年来，可以说AI领域针对长上下文能力的研究从未止步。毕竟不夸张的说，长上下文能力正是下一代AI的核心需求，比如理解整本名著、万行代码、或者进行多轮对话等等。
但是，传统注意力机制（类似“逐字比对”）计算量爆炸增长，像处理6万字符时，70%的时间浪费在了重复计算上。
现有优化方案，比如像缓存筛选、局部计算等，虽然能降低理论复杂度，但存在两大缺陷：
实际加速不达预期：硬件适配差，理论省时50%，真实场景仅快10%。

训练支持不足：多数方法只能优化推理，无法从头训练模型。
而稀疏注意力，则为提高效率同时保持模型功能提供了一个有前途的方向。基于此，本次DeepSeek团队提出一种面向硬件的原生可训练的稀疏注意力机制——Natively Sparse Attention（简称NSA）。
（下图为Full Attention 模型与NSA的性能对比图）

（图｜左：尽管稀疏， NSA 在一般基准、长期上下文任务和推理评估方面平均超过了全神贯注基线。右：对于 64k 长度的序列处理，与 Full Attention 相比，NSA 在所有阶段都实现了显著的计算速度。）
NSA通过算法-硬件协同创新，以实现高效的长上下文建模。其核心创新可以总结为以下几点：
算法设计：
动态分层：全局压缩（快速定位关键段落）+局部精选（保留细节），类似“智能速读”。
硬件适配：计算步骤完美匹配GPU特性，避免现有方法“理论省时50%，实际仅快10%”的缺陷。
训练兼容性：支持端到端训练，预训练阶段即可优化稀疏模式，而非事后打补丁。

（图 |NSA 架构概述）
左图：框架通过三个并行的注意力分支处理输入序列：对于给定的查询，前面的键和值被处理为粗粒度模式的压缩注意力、重要标记块的选定注意力和本地上下文的滑动注意力。

右图：每个分支产生的不同注意力模式的可视化。绿色区域表示需要计算注意力分数的区域，而白色区域表示可以跳过的区域。
动态分层稀疏策略：
NSA 采用动态分层稀疏策略，将注意力计算分为了粗粒度Token压缩、细粒度Token选择、滑动窗口机制三个分支。
这种分层设计的优势就在于，既能保留全局长距离依赖的捕捉能力（如文档级语义），又能优化局部精细信息的处理效率（如代码语法或对话连贯性）。
通过两项关键创新推进了稀疏注意力设计：
（1）通过算术强度平衡算法设计实现了大幅加速，并针对现代硬件进行了实现优化。
（2） NSA支持端到端训练，在不牺牲模型性能的情况下减少训练前计算。
不难看出，NSA的核心优势在于其原生稀疏注意力机制，通过算法与硬件的协同设计，在实现端到端可训练性的同时，将稀疏计算效率提升至硬件理论极限。

NSA机制实验核心结果与行业价值
NSA 在解码、前向传播和后向传播的 64k 长度序列上实现了比 Full Attention 更大的加速，验证了其在整个模型生命周期中的效率。具体数据结果如下：
1、性能测试结果
通用任务：在9项基准测试中，NSA在7项（如数学推理GSM8K、代码生成HumanEval）超越全注意力模型，证明其”智能过滤噪声”能力。
长文本处理：
64k长度检索：NSA实现100%准确率（全注意力仅85%），因分层机制（全局扫描+局部精读）兼顾效率与精度。
复杂推理任务：在需多步逻辑推导的任务中，NSA比全注意力模型准确率提升5%-8%。
2、速度对比
训练阶段： 64k文本处理时，前向计算快9倍，反向传播快6倍，因硬件级内存优化（类似“快递装箱”减少无效搬运）。
推理阶段： 64k文本解码提速11.6倍，因内存读取量减少至全注意力的1/10。

（图｜随着解码长度的增加，NAS表现出延迟显着减少，在 64k 上下文长度下实现了高达 11.6× 的加速。内存访问效率的这种优势，也会随着序列的延长而放大。）

NSA机制的行业价值主要可以体现为以下2点：
成本降低：训练64k长文本模型，算力消耗减少30%。
应用扩展：使手机等设备运行长文本AI（如医疗记录、整本小说分析）成为可能。

长上下文建模领域的重要里程碑！
“缺卡”VS“省卡”
NSA解决了传统稀疏注意力机制在动态性、硬件适配性和训练效率上的短板，成为长上下文建模领域的重要里程碑。同时，NSA的突破也标志着稀疏注意力机制从理论优化迈向工程化落地，如长文本场景扩展、低资源部署以及跨领域的应用。
核心来说：NSA 技术让模型在计算注意力时，不再需要关注所有信息，而是只关注最重要的部分，这样一来就大大减少了计算量。
估计各位同仁看完，也明白了前面为什么会提出这样一个开放探讨的问题：“NSA是否是“缺卡”的无奈之举？”

众所周知，当下尤其是国内受制于算力资源（尤其是GPU显存）的物理限制。
而像大模型训练则常需要数百甚至数千张GPU卡，高昂成本迫使研究者寻找“省卡”方案。NSA的稀疏计算，正是“低资源环境下的高效替代”。
NSA的诞生是否反映了AI发展的现实妥协？
我个人认为，短期来看：在硬件算力未突破性提升前，可以通过算法优化挖掘现有硬件潜力；长期来看：即使未来算力充足（如量子计算普及），NSA的能效比优势也将仍具价值（如边缘设备、实时系统）。
或许，就像是“燃油车时代研发混动技术”——既因油价高昂，也为未来电动化过渡而铺路。
Ref：Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
论文链接：https://arxiv.org/abs/2502.11089

相关图书推荐

▊《强化学习（第2版）》
【加】Richard S. Sutton（理查德·桑顿）【美】Andrew G. Barto（安德鲁·巴图）著
强化学习领域奠基性经典著作！
人工智能行业的强化学习圣经！
在第2版中，随着强化学习近来的蓬勃发展，作者补充了很多新的内容：人工神经网络、蒙特卡洛树搜索、平均收益最大化……涵盖了当今最关键的核心算法和理论。不仅如此，作者还以真实世界的应用为例阐述了这些内容。

▊《大规模语言模型：从理论到实践》
张奇，桂韬，郑锐，黄萱菁著
复旦NLP团队新作
从0分享研发MOSS大语言模型的实践经验

本书详细介绍了构建大语言模型的四个主要阶段：预训练、有监督微调、奖励建模和强化学习。每个阶段都有算法、代码、数据、难点及实践经验的详细讨论。

▊《高效深度学习：模型压缩与设计（全彩）》
汪玉宁雪妃著
高效模型压缩与设计，释放大模型潜能，赋能千行百业
清华大学电子工程系汪玉宁雪妃作品

本书系统地介绍了高效模型压缩和模型设计的方法，在编写上兼顾理论和实践。本书主体部分详细介绍了模型压缩的方法论，包括高效模块设计、模型剪枝、模型量化、模型二值化、神经网络架构搜索、知识蒸馏几大部分。另外，简要介绍了定制化硬件加速器的设计及大语言模型的加速和压缩。
▊《深度神经网络高效计算：大模型轻量化原理与关键技术》
程健著
破解计算复杂度难题，聚焦运行效率
业界泰斗马颂德、周志鑫院士盛赞

本书围绕深度学习模型计算，重点从深度学习模型优化、算法软件加速、硬件架构设计等方面展开介绍深度学习高效计算。

▊《零基础开发AI Agent：手把手教你用扣子做智能体》
叶涛管锴张心雨著
无须编程，采用可视化设计，即使不懂编程也可以快速开发AI Agent
5 大使用场景，11 个精选Agent开发案例，图文并茂，边学边练
让你零基础入门开发单Agent和多Agents
本书能帮助你系统并且轻松地掌握Agent从概念到实操的相关知识、技能和方法，让你在AI时代更好地适应工作和生活。

图书分类

高可靠系统构建指南：服务稳定性建设与技术债务治理

特色专题

帮助

DeepSeek最新论文重磅发布！NSA是否是“缺卡”的无奈之举？

博文小编

读者评论

相关博文

社区使用反馈专区

迎战“双12”！《Unity3D实战核心技术详解》独家预售开启！

请问“下载资源”这个版块在哪？找半天没找着。