新智元报道
编辑:编辑部 HYZ
【新智元导读】就在上周,RTX 5090震撼发布,国行版定价16499元!同时震撼亮相的,还有全球最小AI超算Project Digits,在办公桌上就能跑出数据中心级算力!这一刻老黄摆出别致pose,吸引了全球目光。
他来了,他来了,今天,老黄穿着崭新的夹克出场了。
上周的CES大会上,老黄宣布RTX 5090正式发布。
50系列GPU,价格如下——
RTX 5090:1999美元 / RTX 5090 D:16499元
RTX 5080:999美元 / 8299元
RTX 5070 Ti:749美元
RTX 5070:549美元
RTX 5090系列和RTX 5080将于1月30日上市,RTX 5070 Ti和RTX 5070将于2月上市,RTX 50系列笔记本电脑将于3月推出
紧接着,老黄以一个别致的「美国队长」造型赢得全场喝彩,并揭秘了全新的数据中心超级芯片——Grace Blackwell NVLink72。
它配备了72个Blackwell GPU、1.4 exaFLOPS算力和130万亿个晶体管,目标是超越世界最快超算。
随后,全球首款真正意义上的桌面超算——Project Digits震撼登场。
这款全球最小AI超算,售价仅3000美金。
有了它,200B大模型在办公桌上就能跑了。
也就是说,它只占用你桌面一个咖啡杯的体积,却能提供数据中心级的算力!
搭载全新GB10 Grace Blackwell超级芯片的Project Digits,能在FP4计算精度下,提供高达1 PFLOPS的性能。
老黄预言:在未来,每个数据科学家、研究者和学生的桌子上,都会有一台Project Digits这样的个人AI超算。
AI时代,将属于每一个人。
RTX 5090首秀,DLSS 4也来了
经过数月的泄密和小道消息,全新一代的RTX Blackwell GPU终于正式亮相了。
首先来看一波性能参数:
920亿个晶体管
4000 TOPS的AI算力
380 TFLOPS的光追算力
125 TFLOPS的着色器算力
32GB的GDDR7显存
1792GB/秒的内存带宽
高达21760个CUDA核心
值得注意的是,RTX 5090 D的AI算力只有2375 TOPS。
不过,虽然比满血版的5090少了一半,但至少比4090 D高了一倍。
如此豪华的配置,再加上DLSS 4和Blackwell架构的加持,RTX 5090的性能直接达到了RTX 4090的两倍之多。
然而,这也意味着它的功耗会很高,(RTX 5090的总显卡功耗为575瓦特,推荐电源供应器功率为1000瓦特)。
demo显示,在RTX 5090上运行《赛博朋克2077》时,启用DLSS 4后达到了238帧每秒,而在RTX 4090上启用DLSS 3.5时,只有106帧每秒。
RTX 5080比RTX 4080快一倍,配备16GB的GDDR7显存,内存带宽为960GB/秒,CUDA核心数量为10752个。
RTX 5070 Ti配备16GB的GDDR7显存,内存带宽为896GB/秒,CUDA核心数量为8960个。
RTX 5070则配备12GB的GDDR7显存,内存带宽为672GB/秒,CUDA核心数量为6144个。
老黄甚至宣称,RTX 5070将以549美元的价格,提供RTX 4090级别的性能,这无疑是由于DLSS 4的提升。
另外,老黄还展示了RTX Blackwell GPU,并进行了一场实时渲染演示。
他表示,「新一代的DLSS不仅仅是生成帧,它还能预测未来。我们用GeForce推动了AI,而现在AI正在革新GeForce。」
Nvidia全新的RTX神经着色器可用于压缩游戏中的纹理,而RTX神经面孔则利用生成式AI来提高面部质量。
下一代DLSS包含了多帧生成技术,可以在每个传统帧的基础上生成最多三个额外的帧,使帧率比传统渲染提高了多至8倍。
并且,DLSS 4还包括了Transformer在实时应用中的使用,能够提升图像质量、减少鬼影效果,并在动态画面中增加更高的细节。
值得一提的是,英伟达在RTX 50系列的Founders Edition上采用了全新设计。
配备了两个双流量风扇、3D均热板和GDDR7显存。RTX 50系列所有显卡均支持PCIe Gen 5,并配有DisplayPort 2.1b接口,能够驱动最高8K分辨率和165Hz的显示器。
令人惊讶的是,RTX 5090 Founders Edition是一款双插槽显卡,能够适配小型机箱,跟RTX 4090的尺寸相比,这是一个巨大的变化。
英伟达高级科学家Jim Fan,发现了老黄演讲中关于图形技术的「华点」。
你们都在期待RTX 5090的发布,关注它的规格参数,但你们是否真正理解黄仁勋关于图形技术的说法?
新显卡使用神经网络来生成游戏中90%以上的像素!
传统的光线追踪算法只渲染约10%的内容,相当于一个「粗略的草图」,然后由生成式模型实时地在一次前向传递中填充其余的细节。
女士们先生们,AI就是新一代的图形技术。
50系显卡首秀之后,老黄提到「Scaling law仍在继续」:
第一个scaling law是预训练
第二个scaling law 是后训练
第三个scaling law是测试时计算
scaling law不断演进,推动着AI对计算的巨大需求。
令人惊叹的是,包括微软、Meta、xAI约15个超算中心,都已经装上了Blackwell GPU。
接下来,他又提到了智能体AI,是测试时scaling完美的应用示例。
同时,他还宣布推出了一系列开放许可的基础模型—— Llama Nemotron,能够在各类智能体任务中提供极高的精度。
老黄称,「AI智能体可能是下一个机器人产业,可能是价值数万亿美元机会」。
此外,英伟达NIM Blueprint即将在PC上线,借助这些蓝图,开发者能够基于 PDF 文档创建播客、生成由 3D 场景引导的令人惊艳的图像等。
桌面级AI超算,可跑4050亿LLM
CES大会收尾前,老黄还揭开了一款革命性的压轴产品——Project Digits,一台真正意义上「桌面超级计算机」!
它专为AI开发者、数据科学家、学生等,那些从事AI工作的专业人士而设计。
这款小型计算机是「全球最小」可运行200B参数模型的AI超级计算机,售价3000美金(约21986元)。
正如老黄所展示的那样,这款紧凑型台式系统提供强大算力的同时,仅占用了极小的桌面空间——
宽度大约相当于一个普通咖啡杯的长度,高度也仅有其一半左右。
想象一下,你的办公桌上放置一个微型设备,却能提供堪比数据中心级算力。
这就是Project Digits带来的革命性突破!
Project Digits搭载了全新的GB10 Grace Blackwell超级芯片,能在FP4计算精度下,提供高达1 PFLOPS(千万亿次浮点运算/秒)的AI性能。
这颗强大的芯片,还搭载了20个ARM核心的Grace CPU。CPU和GPU通过NVIDIA NVLink C2C技术实现高速互联。
每个Project Digits都配有128GB低功耗统一的高一致性内存,以及最高4TB的NVME存储。
有了它,开发者可以直接在桌面上,运行高达2000亿的大模型。
令人惊喜的是,通过ConnectX网络芯片,可以将2台Project Digits超级计算机互联,能够运行高达4050亿参数的模型。
此外,Project Digits预装了NVIDIA DGX基础操作系统(基于Ubuntu Linux)和NVIDIA AI软件栈,为开发者提供了一个开箱即用的AI开发环境。
开发者可以即插即用,快速启动AI项目的开发。
对于数百万开发者来说,它将成为一款改变游戏规则的创新产品。
尤其是,Project Digits特别适合处理,需要依赖云计算/数据中心资源才能运行的AI大模型。
这款桌面AI超算应用场景非常广泛,AI模型实验和原型开发、AI模型微调和推理(用于模型测试或评估),以及本地AI推理服务(如聊天机器人或代码智能助手)。
此外,数据科学家还以利用系统运行NVIDIA RAPIDS,直接在桌面就能高效处理大规模数据科学工作流。
有了英伟达AI完整技术栈的加持(框架、工具、API),Project Digits成为了边缘计算应用的理想开发平台,特别适用于机器人技术、VLM等领域。
Project Digits的出世,标志着个人AI计算进入了一个全新的时代。
它能让全世界开发者能够在自己的办公桌上,运行超大规模的AI模型,补充了现有的云计算资源,极大地提升了AI开发效率。
物理AI新纪元,世界基础模型全开源
智能体AI之后,老黄又将话题引到了「物理AI」。在他看来,「AI的下一个前沿就是物理AI」。
大模型的工作原理是,根据提示一次生成一个token产生输出。
如果这个上下文变成了现实周围环境,如果提示问题变成了请求,大模型需要从生成「内容token」转变为生成「动作token」。
而现在,我们需要做的是创建有效的「世界模型」,而不再是GPT系语言模型。
这个「世界模型」必须理解世界的语言,必须理解物理动力学,比如重力、摩擦,必须理解几何和空间关系,理解因果关系,理解物理永恒性……
CES现场,老黄官宣了革命性世界基础模型开发平台——Cosmos,旨在理解物理世界。
它基于2000万小时数据集完成训练,能够将文本、图像、视频作为输入,可以生成虚拟世界状态、视频。
该平台包含多个功能模块,比如扩散模型、自回归模型、视频分词器,开发者可以根据具体需求选择使用。
值得一提的是,老黄现场直接将Cosoms全部开源,Nano、Super、Ultra全部公开可下载。
此外,Cosoms还能与Omniverse两者结合使用,能够提供一个物理真实的多元生成器。
也就意味着,物理模拟世界的一切,都可以通过Cosoms一次性生成出来。
老黄还提到了三台计算机——一台DGX用来训练AI,另一台AGX用来部署AI,最后一台便是Omniverse+Cosmos。
若是连接前两者,我们就需要一个数字孪生。
老黄认为,「未来,每一个工厂都有数字孪生,你可以将Omniverse 和Cosoms结合,生成一大堆未来场景」。
自动驾驶汽车+机器人
制造自动驾驶汽车,就像机器人一样,同样需要这三台计算机。
截至目前,每年生产1亿辆车,全球有数十亿辆车,都将在未来逐步变成高度自动化、完全自动化驾驶系统。
老黄预测道,这将会成为首个价值数万亿美金的机器人产业。
同时,他发布了下一代汽车处理器——Thor,处理性能比上一代Orin飙升20倍,而且也是通用机器人处理器。
那么,在自动驾驶背景下,Omniverse+Cosoms能做什么?
它能够生成无限驾驶场景,加速短尾、无法收集数据等场景的自动驾驶的研发。
接下来,老黄召唤出所有机器人登台,并表示「通用机器人的chatGPT时刻到来」。
他称,「目前有三种机器人——智能体AI、自动驾驶汽车、机器。如果我们拥有解决这三个问题技术,机器人时代就在眼前」。
在发布会最后的最后,老黄总结道,我们现在共有三台全新Blackwell系统正在生产中。
除了Grace Blackwell NVLink72超算,还有一个是物理AI基础模型,另一个是在智能体AI上研发的三类机器人。
而就在刚刚,英伟达股价再次创下历史新高。
一夜间,英伟达股价大涨超3%,以每股超150美元的价格收盘,超过11月创下的每股148.88历史最高收盘纪录。
现在,如今,英伟达的最新估值已经达到了3.66万亿美元。
相关阅读
高效计算、轻量化是大模型落地的关键。
大模型变小将是未来的王道,为了帮助大家更好地了解芯片及大模型轻量化的内容,以下分享几本相关好书,希望能助力大家紧跟未来的AI浪潮,不错过智能时代带来的机遇!
▊《深度神经网络高效计算:大模型轻量化原理与关键技术》
程健 主编
大模型变小,突破场景限制
软硬件齐抓, 释放应用潜力
近些年来,在深度学习的推动下,人工智能步入新的发展阶段。然而,随着深度学习模型性能的提升,其计算复杂度也在不断增加,深度学习模型的运行效率面临巨大挑战。在这种情况下,深度学习高效计算成为在更大范围内应用人工智能的重要环节。
本书围绕深度学习模型计算,重点从深度学习模型优化、算法软件加速、硬件架构设计等方面展开介绍深度学习高效计算,主要包括低秩分解、剪枝、量化、知识蒸馏、精简网络设计与搜索、深度神经网络高效训练、卷积神经网络高效计算、大模型高效计算、神经网络加速器设计等内容。
本书既适合高校相关专业学生,也可作为从业者的案头参考。
▊《高效深度学习:模型压缩与设计(全彩)》
汪玉 宁雪妃 著
高效模型压缩与设计,释放大模型潜能,赋能千行百业
清华大学电子工程系汪玉 宁雪妃 作品
权威:出自芯片领域著名专家之手
系统:系统梳理模型压缩与设计关键技术
经验:提供实践中总结的分析思路和经验
本书系统地介绍了高效模型压缩和模型设计的方法,在编写上兼顾理论和实践。本书主体部分详细介绍了模型压缩的方法论,包括高效模块设计、模型剪枝、模型量化、模型二值化、神经网络架构搜索、知识蒸馏几大部分。另外,简要介绍了定制化硬件加速器的设计及大语言模型的加速和压缩。
▊《算力芯片――高性能 CPU/GPU/NPU 微架构分析》
濮元恺 编著
高性能计算和人工智能等技术在多个领域的应用变得日益广泛,芯片算力是支持这些技术的基础
本书介绍了超级计算机算力和AI算力的异同,从CPU流水线开始,描述主要的众核处理器架构和功能部件设计。在GPU和NPU等加速器部分,介绍了GPU为何能从单纯的图形任务处理器变成通用处理器。GPU在设计逻辑、存储体系、线程管理,以及面向AI的张量处理器方面成为最近几年全世界科技行业最瞩目的明星。本书对华为等厂商推出的NPU芯片设计也做了架构描述,中国也拥有独立自主知识产权的高算力芯片,并且支持多芯片、高带宽互连。本书也回顾了近20年来主流的CPU、GPU芯片架构的特点,介绍了存储与互连总线技术,即大模型专用AI超级计算机的中枢核心。
▊《AI Agent应用与项目实战》
唐宇迪,尹泽明 著
大语言模型与AI工具结合,量身定做,动手打造自己的私有助理
系统介绍Agent核心组件的构建原理与应用流程
全面介绍基于实际业务场景打造专属Agent
随着大语言模型的日益火爆,各行各业都想把AI(人工智能)接入自己的业务场景,但是只依靠大语言模型就能解决业务场景的实际需求吗?要想真正使AI落地肯定少不了结合自己业务场景的数据,定制AI所承担的角色,给它配置上需要使用的工具并按照标准化的流程办事。那么,这些操作就可以使用本书介绍的Agent(智能体)来实现。本书使用通俗的语言讲解Agent核心组件的构建原理与应用流程,基于主流Agent框架(Coze、AutoGen Studio)进行案例应用实战,全流程解读如何基于实际业务场景打造专属Agent。
为了使读者能够将Agent应用在自己的私有化场景中,本书还讲解了如何微调本地大语言模型并将本地大语言模型与Agent结合,从而帮助读者打造自己的私有助理。
▊《AI Agent:AI的下一个风口》
吴畏 译
揭开未来与我们工作和生活息息相关的AI Agent的神秘面纱
本书是一本科普书,通俗易懂,没有计算机基础也能轻松看懂,适合所有人读
本书探讨了AI领域的AI Agent(智能体)和生成式AI的前沿进展,以及这些技术如何重塑我们的生活和工作方式。
本书首先回顾了AI技术的演变历程,并强调了智能体的定义及其在客户服务、医疗健康和制造业等领域的广泛应用。本书也对智能体与传统软件进行了对比,分析了智能体的自主性、适应性和协作能力。生成式AI的崛起也被特别提及,其在艺术创作、数据增强等领域的应用被广泛讨论。
本书还探讨了智能体在多智能体系统中的协同作用和具身智能的概念,分析了智能体的商业应用,包括企业级应用与任务规划、流程优化等,同时也指出了智能体在数据隐私、安全和伦理方面面临的挑战。
最后,本书展望了智能体技术的未来发展,包括与其他先进技术的结合,认为它们将在更多领域发挥重要作用,为人类社会的进步做出贡献。智能体在未来将与每个人的工作和生活都息息相关。
尊敬的博文视点用户您好: 欢迎您访问本站,您在本站点访问过程中遇到任何问题,均可以在本页留言,我们会根据您的意见和建议,对网站进行不断的优化和改进,给您带来更好的访问体验! 同时,您被采纳的意见和建议,管理员也会赠送您相应的积分...
时隔一周,让大家时刻挂念的《Unity3D实战核心技术详解》终于开放预售啦! 这本书不仅满足了很多年轻人的学习欲望,并且与实际开发相结合,能够解决工作中真实遇到的问题。预售期间优惠多多,实在不容错过! Unity 3D实战核心技术详解 ...
如题 ...
读者评论