Ilya向全世界宣布：预训练结束了！全球AI数据耗尽，AI的未来在哪里？（附书单）

新智元报道
编辑：Aeneas 好困
【新智元导读】全球顶会NeurIPS 2024中，Ilya登场演讲，向全世界宣告：预训练结束了！数据如同化石燃料般难以再生，未来，AI的发展方向就是具备自我意识的超级智能。

上周六，Ilya现身NeurIPS 2024，宣布：预训练从此将彻底终结。
短短16分钟的发言，足以震撼全场。
是的，他的原话是——
正如我们所知的那样，预训练毫无疑问将会终结，与此同时我们也不会再有更多数据了。
原因在于，我们只有一个互联网，训练模型需要的海量数据即将枯竭，唯有从现有数据中寻找新的突破，AI才会继续发展。
Ilya的预测是，以后的突破点，就在于智能体、合成数据和推理时计算。

未来，我们会走向何方？
Ilya告诉我们：接下来登场的就是超级智能（superintelligence）——智能体，推理，理解和自我意识。

十年再登巅峰，Ilya感谢前同事

11月底，NeurIPS 2024时间检验奖公布，Ilya和GAN之父获奖。

论文地址：https://arxiv.org/abs/1409.3215
Ilya感谢了自己的两位合著者Oriol Vinyals和Quoc Le，放出了下面这张图。

这是在十年前，2014年蒙特利尔NeurIPS 会议上一次类似演讲的截图。Ilya说，那是一个更加纯粹的时代。
而如今，图中的三位青葱少年已经长成了下面的模样。

Ilya要做的第一件事，是展示10年前同一个演讲的PPT。
他们的工作，可以用以下三个要点概括——
这是一个基于文本训练的自回归模型；它是一个大型神经网络；它使用了一个大规模的数据集。

10层神经网络，只需几分之一秒
下面，Ilya与我们探讨了「深度学习假设」。
如果你有一个10层的大型神经网络，它就可以在几分之一秒内，完成任何人类能做的事。
为什么要强调几分之一秒内？
如果你相信深度学习的基本假设，即人工神经元和生物神经元是相似的，并且你也相信真实神经元的速度比人类快速完成任务的速度更慢，那么只要全世界有一个人能够在不到一秒内完成某项任务，那么一个10层神经网络也能做到。
只要把它们的连接，嵌入到你的人工神经网络中。
这就是我们的动机。
我们专注于10层神经网络，因为在那个时候，这就是我们能够训练的神经网络。如果你能突破10层，你当然可以完成更多事。

下面这张PPT，描述的是他们的「主要想法」。
核心观点就是，如果你有一个自回归模型，并且它能够足够好地预测下一个Token，那么它实际上会抓取、捕获、掌握接下来任何序列的真实分布。
在当时，这是一个相对新颖的观点。
尽管它并不是第一个被应用于实践的自回归神经网络，但Ilya认为，这是第一个令他们深信不疑的自回归网络：如果把它训练得足够好，那么你就会得到想要的任何结果。
当时，他们尝试的是翻译。这个任务如今看来平凡无奇，当时却极具挑战性。

接下来，Ilya展示了一些可能很多人从未见过的古老历史——LSTM。
不熟悉的人会觉得，LSTM是Transformer出现之前，深度学习研究者所使用的工具。它可以被看作是一个旋转了90度的ResNet，但更复杂一些。
我们可以看到积分器（integrator），如今被称为残差流（residual stream），还涉及一些更为复杂的乘法操作。

Ilya还想强调的一点是，他们当时使用了并行化。
不过并不是普通的并行化，而是流水线并行化（pipelining），每层神经网络都分配一块GPU。
从今天来看，这个策略并不明智，但当时的他们并不知道。于是，他们使用8块GPU，实现了3.5倍的速度。

从这里，Scaling Law开始了
最终，Ilya放出了那次演讲中最为意义重大的一张PPT，因为，它可以说是「Scaling Law」的开端——
如果你有一个非常大的数据集，训练一个非常大的神经网络，那么可以保证成功。
从广义上来说，后来发生的事情也的确如此。

接下来，Ilya提到了一个真正经得起时间考验的想法——联结主义（connectionism），这样说深度学习的核心思想。
这种理念认为，如果你愿意相信人工神经元在某种程度上有点像生物神经元，那么你就会相信，超大规模神经网络并不需要达到人类大脑的级别，就可以用来完成几乎所有人类能做的事。
但它与人类仍然不同。因为人类大脑会弄清楚自己如何配置，它使用的是最优的学习算法，需要与参数数量相当的数据点。
在这一点上，人类仍然更胜一筹。

所有这些，最终都引出了「预训练时代」。
这个时代，可以用GPT-2、GPT-3和Scaling Laws定义。
此处，Ilya格外感谢了前同事Alec Radford，Jared Kaplan和Dario Amodei。
这项技术，是推动我们今日所见所有技术进步的核心驱动力。

预训练时代，即将终结
然而，我们所知的预训练路线，毫无疑问会终结。
为什么？
这是因为，尽管计算能力正通过更好的硬件、更优的算法和更大的集群不断增长，但数据量并没有增长——我们只有一个互联网。
甚至可以说，数据是AI的化石燃料。它们是以某种方式被创造出来的，而如今，我们已经达到了数据峰值，不可能再有更多数据了。
当然，目前现存的数据，仍能支持我们走得很远，但我们只有一个互联网。

接下来会发生什么？Ilya给出了下列预测。（或者只是提到他人的猜测）
首先，智能体会有一些突破，这些能自主完成任务的AI智能体，就是未来的发展方向。
其次，还会有一些模糊的合成数据，但这到底意味着什么？很多人都会取得有趣的进展。
最后，就是推理时计算了，最引人瞩目的例子，就是o1。在预训练后，我们接下来该探索什么？o1给出了生动的例子。

下面，是一个来自生物学的例子。
这张图，展示了哺乳动物的身体大小与大脑大小之间的关系。
在生物学中，一切都很混乱，但上面这个紧密联系，却是一个罕见的例子。
从人类及其近亲的进化分支上看，包括尼安德特人、能人等等，大脑与身体比例的缩放指数都不同。
这意味着在生物学中，确实存在不同比例缩放的先例。
如今我们所扩展的，可以说是第一个我们知道该如何扩展的事物。这个领域中的每个人，都会找到解决办法。
而我们在相关领域，也取得了惊人的进步。10年前这个领域的人，还会记得当时是多么无能为力。过去2年进入深度学习的人，可能都无法感同身受。

超级智能是未来，还会与意识结合
最后Ilya谈到的，就是超级智能（superintelligence）了。它是公认的发展方向，也是研究人员们正在构建的东西。
从本质上来说，超级智能与现在的AI完全不同。
目前，我们拥有出色的LLM和聊天机器人，但它们也表现出某些奇怪的不可靠性——时常会感到困惑，但却能在评估中表现出远超人类的能力。
虽然我们还不知道如何调和这一点，但最终迟早会实现以下目标：AI将真正具备实际意义上的智能体特性，并将正学会推理。
由于推理会引入了更多的复杂性，因此一个会推理的系统，推理量越多，就会变得越不可预测。相比之下，我们熟知的深度学习都是可以预测的。
举个例子，那些优秀的国际象棋AI，对于最顶尖的人类棋手来说就是不可预测的。
所以，我们将来不得不面对的，是一些极其不可预测的AI系统——它们能够从有限的数据中理解事物，同时也不会感到困惑。
同样，自我意识也是有用的，它构成了我们自身的一部分，同时也是我们世界模型中的一部分。
当所有这些特性与自我意识结合在一起时，就会带来与现有系统完全不同性质和特性的系统，它们将拥有令人难以置信的惊人能力。

当然，虽然无法确定如何实现、何时实现，但这终将发生。
至于这种系统可能带来的问题，就留给大家自己去想象吧。
毕竟预测未来是不可能的，任何事情都有可能发生。
参考资料：
https://x.com/_jasonwei/status/1867696401830096970
https://x.com/blueberry_feed/status/1867764724206629224
https://x.com/tmychow/status/1867695173783925071

跟随大模型祖师爷Ilya的脚步，小编这里也和大家分享几本可以抓住未来AI发展趋势的好书！
像Ilya预测的那样，关注智能体、合成数据和推理时计算……尽在以下书中！
希望能帮助大家在新一波AI浪潮中乘风而起~~

▊《深度神经网络高效计算：大模型轻量化原理与关键技术》
程健主编
大模型变小，突破场景限制
软硬件齐抓，释放应用潜力

近些年来，在深度学习的推动下，人工智能步入新的发展阶段。然而，随着深度学习模型性能的提升，其计算复杂度也在不断增加，深度学习模型的运行效率面临巨大挑战。在这种情况下，深度学习高效计算成为在更大范围内应用人工智能的重要环节。
本书围绕深度学习模型计算，重点从深度学习模型优化、算法软件加速、硬件架构设计等方面展开介绍深度学习高效计算，主要包括低秩分解、剪枝、量化、知识蒸馏、精简网络设计与搜索、深度神经网络高效训练、卷积神经网络高效计算、大模型高效计算、神经网络加速器设计等内容。
本书既适合高校相关专业学生，也可作为从业者的案头参考。

▊《高效深度学习：模型压缩与设计（全彩）》
汪玉宁雪妃著
高效模型压缩与设计，释放大模型潜能，赋能千行百业
清华大学电子工程系汪玉宁雪妃作品
权威：出自芯片领域著名专家之手
系统：系统梳理模型压缩与设计关键技术
经验：提供实践中总结的分析思路和经验

本书系统地介绍了高效模型压缩和模型设计的方法，在编写上兼顾理论和实践。本书主体部分详细介绍了模型压缩的方法论，包括高效模块设计、模型剪枝、模型量化、模型二值化、神经网络架构搜索、知识蒸馏几大部分。另外，简要介绍了定制化硬件加速器的设计及大语言模型的加速和压缩。

▊《多模态人工智能：大模型核心原理与关键技术》
王金桥著
作者硬核：国家队大模型紫东太初负责人，在多模态人工智能领域多年深耕细作，对技术有深刻的理解、技术趋势有敏锐的洞察力
接地气的通识教材
快速了解多模态人工智能/大模型是什么，为什么，怎么做。

本书是一本人工智能通识课程教材，它系统地介绍了多模态人工智能的基础理论、关键技术及应用场景，深入分析了多模态学习、多模态训练、多模态大模型、多模态理解、多模态检索、多模态生成、多模态推理、多模态交互、多模态模型安全与可信等核心技术，旨在为读者提供一个清晰、全面的多模态人工智能的知识框架，从而帮助读者更好地理解和应用多模态人工智能技术。
本书适合高等院校计算机科学与技术和人工智能等专业的本科生、研究生阅读，也可供对多模态人工智能技术感兴趣的工程师和研究人员参考。

▊《多模态大模型：新一代人工智能技术范式（全彩）》
刘阳林倞著

多模态大模型基础、核心、模型详细剖析
AIGC、具身智能、视觉问答等典型应用案例，
因果推理、世界模型、Sora、AGI Agent等前沿技术探究

本书以深入浅出的方式介绍多模态大模型的技术方法、开源平台和应用场景，并详细阐述因果推理、世界模型及多智能体与具身智能等前沿技术领域，有助于读者全面了解多模态大模型的特点及发展方向，对新一代人工智能技术范式和通用人工智能的发展起到重要推动作用。
本书内容共5章，第1章引领读者深入探索最具代表性的大模型结构，包括BERT、Chat-GPT 和ChatGLM等，为建立对多模态大模型的全面认知打下基础。第2章深度剖析多模态大模型的核心技术，如提示学习、上下文学习、思维链和人类反馈强化学习等，揭示多模态大模型的独特之处和引人入胜的技术内涵。第3章介绍多个具有代表性的多模态基础模型，如CLIP、LLaMA、SAM和PaLM-E等，为读者呈现多样和广泛的技术解决方案。第4章深入分析视觉问答、AIGC和具身智能这三个典型应用，展示多模态大模型在实际场景中的强大能力。第5章探讨实现AGI的可行思路，包括因果推理、世界模型、超级智能体与具身智能等前沿技术方向。
本书不仅适合高校相关专业高年级本科生和研究生作为教材使用，更是各类IT从业者的必备参考之作。

▊《AI Agent应用与项目实战》
唐宇迪，尹泽明著
大语言模型与AI工具结合，量身定做，动手打造自己的私有助理
系统介绍Agent核心组件的构建原理与应用流程
全面介绍基于实际业务场景打造专属Agent

随着大语言模型的日益火爆，各行各业都想把AI（人工智能）接入自己的业务场景，但是只依靠大语言模型就能解决业务场景的实际需求吗？要想真正使AI落地肯定少不了结合自己业务场景的数据，定制AI所承担的角色，给它配置上需要使用的工具并按照标准化的流程办事。那么，这些操作就可以使用本书介绍的Agent（智能体）来实现。本书使用通俗的语言讲解Agent核心组件的构建原理与应用流程，基于主流Agent框架（Coze、AutoGen Studio）进行案例应用实战，全流程解读如何基于实际业务场景打造专属Agent。
为了使读者能够将Agent应用在自己的私有化场景中，本书还讲解了如何微调本地大语言模型并将本地大语言模型与Agent结合，从而帮助读者打造自己的私有助理。

▊《AI Agent：AI的下一个风口》
吴畏译
揭开未来与我们工作和生活息息相关的AI Agent的神秘面纱
本书是一本科普书，通俗易懂，没有计算机基础也能轻松看懂，适合所有人读

本书探讨了AI领域的AI Agent（智能体）和生成式AI的前沿进展，以及这些技术如何重塑我们的生活和工作方式。
本书首先回顾了AI技术的演变历程，并强调了智能体的定义及其在客户服务、医疗健康和制造业等领域的广泛应用。本书也对智能体与传统软件进行了对比，分析了智能体的自主性、适应性和协作能力。生成式AI的崛起也被特别提及，其在艺术创作、数据增强等领域的应用被广泛讨论。
本书还探讨了智能体在多智能体系统中的协同作用和具身智能的概念，分析了智能体的商业应用，包括企业级应用与任务规划、流程优化等，同时也指出了智能体在数据隐私、安全和伦理方面面临的挑战。
最后，本书展望了智能体技术的未来发展，包括与其他先进技术的结合，认为它们将在更多领域发挥重要作用，为人类社会的进步做出贡献。智能体在未来将与每个人的工作和生活都息息相关。

图书分类

高可靠系统构建指南：服务稳定性建设与技术债务治理

特色专题

帮助

Ilya向全世界宣布：预训练结束了！全球AI数据耗尽，AI的未来在哪里？（附书单）

博文小编

读者评论

相关博文

社区使用反馈专区

迎战“双12”！《Unity3D实战核心技术详解》独家预售开启！

请问“下载资源”这个版块在哪？找半天没找着。