刘少山：“具身机器人”如何改变世界？

编者荐语：
具身智能机器人这个概念，尽管已经存在超过30 年，但是最近又重新引起学术界和工业界的关注。《具身智能机器人系统》旨在帮助读者理解具身智能机器人和传统机器人计算之间的关系，判断具身智能机器人未来的发展方向
以下文章来源于大湾区评论，作者刘少山

编者按 · 2024.10.23

随着人工智能技术的飞速发展，具身智能（Embodied Artificial Intelligence，简称EAI）作为AI领域的一个重要分支，正逐渐从实验室走向商业应用。EAI系统通过与环境的物理交互，赋予机器人物理实体感知、学习和动态交互的能力。这一领域的进步不仅对科技发展具有重要意义，也对社会经济结构产生深远影响。在2023年的半导体大会上，英伟达创始人兼CEO黄仁勋便表示，人工智能的下一个浪潮是具身智能。2024年云栖大会上，阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭表示，生成式AI最大的想象力不在手机屏幕，而是改变物理世界。

本文中，刘少山博士为我们带来他对这一前沿科技领域的独到见解。作者阐述了具身智能的三个核心原则，并对EAI系统的商业价值进行了深入分析。他指出，尽管EAI系统在学术和实践上已取得显著进展，但在商业化的道路上仍面临多重挑战，包括软件系统的复杂性、缺乏适合的计算机体系结构，以及数据运用的不足等。本篇文章不仅是其对具身智能领域的深刻洞察，也是对未来技术发展趋势的前瞻性思考。

人工智能是否能“取代”人？这个问题的答案我们还不知道。但我们这些做人文研究、政策研究的学者，是需要做好人工智能可能会取代人的准备，因为这个时刻一旦到来，世界将变得超乎我们的想象。我是做具身机器人研究的，所以我就讲讲在实体世界中具身机器人将会如何改变世界。

AI改变未来的三种可能

我的演讲主题是“具身智能机器人技术探索与研究”，大家可能对这个词比较陌生，希望通过简单的讲解，能让大家理解什么是“具身智能”。

在开始之前，我先提出的三个比较“激进”的想法，是对未来的一些可能发生事件的设想。

首先，AI代币是否会变成货币？什么是AI代币呢？它不是比特币，我们今天用的大模型的底层计价单位是Token——比如你用OpenAI，它是看你用了多少Token。当全社会所有的底层功能都是AI驱动的时候，全社会的计价单位都会变成AI Token。那么，它是否有等同货币的作用？这是我的第一个比较激进的思考。

第二，“计算效率”即“经济效率”。芯片的作用是把能源转化为算力，芯片做得越好，就越能有效地把能源转化为算力。而软件的作用是把算力转为智能。两者结合，最终就是把能源跟智能连起来。所以赋能人工智能分两步，先用很强的芯片把能源转化为算力，再用很强的软件把算力转成智能。如果以后AI代币成为货币，那它的“锚”就是能源，因为追根溯源就是多少能源产生多少算力，多少算力产生多少智能。

第三，控制基础模型的公司或可垄断经济。垄断的关键在于谁是发币者。今天发币的机构还是央行，但假如未来有一个名为“OpenAI”的公司成为发币机构——在各行各业都大规模依赖大模型的时候，最终控制经济的可能是公司——我们怎么防止此类事情的发生？可能学人文、学政策的同学需要考虑这件事情。

百度世界大会2023现场，参会者在展区试用百度“文心一言”（图源：新华社）

具身智能的发展史

最近“具身智能”（Embodied Artificial Intelligence，简称 EAI）这个词在中文媒体出现的频率极高。到底“具身智能”是什么？我们需要先回顾 EAI 的发展历史。

具身智能的想法首次被详细探讨是在罗德尼·布鲁克斯（Rodney Brooks）的研究工作中，尤其是在他的论文“Intelligence Without Representation”中。这篇 1987 年发表的论文质疑了当时主流的人工智能研究方法，这些方法主要依赖符号处理和复杂的内部模型。

布鲁克斯提出了一个激进的观点，认为智能行为可以直接从机器与其环境的简单物理交互中产生，而不需要复杂的内部表示。布鲁克斯的这一理念开启了一种全新的研究方向，即通过智能体的物理交互来实现智能，这种思想后来被称为“具身认知”（Embodied Cognition）。

他认为，智能系统的设计应当基于其物理存在的实际功能和环境互动，而不是仅依赖抽象的计算过程。这一理念对后续的机器人学和人工智能领域产生了深远的影响，促进了自主机器人技术的发展，使这些机器人能够更自然地与复杂的真实世界互动。罗德尼·布鲁克斯的思想强调了具身智能在智能行为发展中的重要性，并启发了一系列在真实世界环境中操作的自主智能系统的研发。

1999 年，Rolf Pfeifer 和 Christian Scheier 撰写了 Understanding Intelligence，这是一部深刻探讨智能本质的著作，这部著作强调了智能是如何通过身体与环境的互动产生的。

该著作提出了一个创新观点：智能并非局限于大脑或某些算法中，而是智能体的整个身体结构和功能的综合体现。通过这种观点，作者反对传统的以大脑或计算为中心的智能理解方式，强调身体对智能形成的根本影响。

书中详细阐述了如何根据具身智能的理念来设计智能系统，指出设计时需要考虑机器的身体结构如何支持其感知和行为能力。这种以身体为基础的设计哲学有望创造出与人类行为更为贴近的、自然且高效的机器人和人工智能系统。

作者还采用跨学科的研究方法，整合了生物学、心理学、神经科学和工程学的知识，以全面展示智能在多个层面上的具体化和实现。这不仅丰富了智能研究的理论深度，也为实际应用提供了实验和模型上的支持。

通过具体实验和计算模型，书中展示了具身智能原理如何被应用于解决实际问题。Pfeifer 和 Scheier 提出的这种将身体和环境互动视为智能不可分割部分的理念，已被广泛接受，并应用于多种智能系统的设计和研究中。

琳达·史密斯在 2005 年提出了“体现假说”（Embodiment Hypothesis），从认知科学入手去理解具身智能，强调身体与其环境之间的互动在认知过程中扮演着核心角色。这一假说认为，智能和认知不仅是大脑的活动，而是整个身体与外部世界的动态交互的结果。根据体现假说，我们的思维、感知和行为能力是在身体与物理环境的持续互动中形成的。这种观点与传统的即认知主要由大脑内部的符号处理系统独立完成的观点形成对比。

体现假说提出，身体的结构和功能对认知能力有决定性影响，身体不仅提供了感知输入的基础，还影响了这些信息的处理和解释。例如，在解决问题和学习新技能时，我们的身体限制和能力，如手的灵活性或感官系统的敏感度，都会影响我们与世界互动的方式，并最终影响我们的认知发展。此外，体现假说也强调环境的作用，认为环境不仅提供信息输入，还参与形成身体行为和认知结构。

在2024世界人工智能大会，一组人形机器人在展览入口处进行集中展示与互动（图源：新华社）

具身智能的三个原则

上面这些基础研究，为我们提供了重要的指导思想。EAI，就是将人工智能融入机器人等物理实体，赋予它们感知、学习和与环境动态交互的能力。在此基础上，我总结出了三个原则。

第一，具身智能系统不能依赖预定义的复杂逻辑来管理特定场景。这一原则强调，EAI 系统应当能够灵活应对多变的环境，而不是仅仅执行固定的、预设的程序。这要求系统能够在没有详尽预设条件的情况下，通过实时的感知和处理，对环境做出反应。也就是说，EAI不能依赖预先“写死”的逻辑来处理复杂的场景。例如，很多自动驾驶公司，每一个新的场景都用新的代码去填，最后越填越复杂，最终证明它不是可伸缩（scalable）的方法。再例如，一个自动导航的机器人，在未知的环境中，应当能够根据当前的障碍物和地形，实时规划出最佳的行进路线，而不是单纯依赖预先编程好的路径。

第二，具身智能系统必须包含进化学习机制，使其能够不断适应运行环境。进化学习机制允许EAI系统从经验中学习，并随着时间的推移优化其性能。也就是说，除了不要将程序“写死”，还要有一个学习的方法，有一个机制来从环境中提取智能。这类学习机制通常涉及一些机器学习算法，这些算法可以使系统根据其与环境的互动进行自我调整。例如，一个清洁机器人在不断清洁的过程中，会学习哪些区域更容易积累污垢，从而在未来的清洁过程中调整其清扫路线，提高清洁效率。

第三，环境在塑造物理行为和认知结构方面起着关键作用。环境特别重要，环境决定能够学习多少东西。环境不仅仅是EAI系统操作的舞台，更是影响和塑造该系统行为和认知发展的关键因素——环境的每一个组成部分，从物理结构到社会互动，都可能对EAI系统的发展产生深远影响。因此，理解和利用这种环境影响，可以显著提高系统的适应性和智能性。例如，一个适用于户外救援的机器人，需要能够识别不同的自然环境特征（如河流、泥泞地面等），并根据这些特征调整其救援策略，以确保操作的安全性和有效性。

这三个原则共同构成了一个强大的框架，指导我们设计出更为智能、自主和适应性强的EAI系统。通过不断地学习和适应，这些系统有望在各种复杂和动态的环境中发挥关键作用。

世界机器人大会博览会现场展示人形机器人如何进厂“打工”（图源：新华社）

EAI系统的商业价值

一个行业要商业化，需要所有的点都具备，将点连成线，才能成功实现商业化。今天的EAI 系统达到可以商业化的地步了吗？我们先回到三原则来看，目前EAI系统究竟发展到了什么程度。

从原则一来看，现阶段已经基本完成。很多人说具身智能就是“大模型+机器人”，而“大模型+机器人”完成的就是原则一对应的场景。

从原则二来看，至少在学术层面上已经成立。2017年Nature communication上面发布了一篇文章，讲述了“深度进化强化学习”的框架（Deep Evolutionary Reinforcement Learning，DERL）。在文章中，研究团队制备出一种深度学习“游乐场”——DERL计算系统，并首次对“鲍德温效应”进行了验证，即在模拟进化实验中，这种深度学习系统可以快速地筛选出学习效率更高的形态。该系统可以在复杂的环境下学习极具挑战的运动和操作任务，以进化出不同的代理形态。

从原则三来看，现在已经基本可以满足。Facebook已经发布了一个叫Habitat的虚拟现实开发环境。英伟达也放出它的自动驾驶的模型。目前，我们已经能够理解和利用环境影响，去显著提高系统的适应性和智能性。

可以说，这三个原则在学术和实践上已经被满足了，下一步就是怎么将其商业化。

说到商业化，又要回到宏观政策。谁能做？这是核心的问题，因为这取决于供应链在哪里。于是，我们把具身智能机器人拆解，去了解所有不同模块在全世界的占比是多少？惊奇地发现，中国占比是38%，位居世界第一。传统上认为做精密仪器很强的日本，占比只有12%。欧盟更是逐年在跌，今年是23%。而美国是26%。在中国占比的38%里面，大湾区占到中国的55%。

中国为何会有如此高的占比？过去20年，中国政府在新能源智能车投入了几万亿的资本。尽管这些资本投下去之后，仍有一些公司倒闭，但这并不是一个浪费。这些资本在背后孵化了一条很完整的智能供应链，比如，激光雷达现已成为一个很普世的传感器。具身智能和新能源智能车在供应链的重合度有80%左右，所以这些供应链外溢到了具身智能。在大模型这一块，平安有平安大模型，腾讯有腾讯大模型，只要解决好数据怎么获取的问题，这一块就不需要太过担心。

量产G1型机器人，价格为9.9万元人民币起，目前已被很多实验室和企业所采购（图源：新华社）

我们再看看粤港澳大湾区在具身智能关键零部件的份额占比。我们发现，芯片在粤港澳大湾区现在还是一个空白——几乎每一项零部件的占比都很高，但是作为AI底座芯片的占比基本为零。这是一个很大的缺失，怎么把大模型有效地运行在一个相对便宜、可商业化的芯片上，我们目前缺失这一环节。

我们正经历着两个时代，一个是PC时代，一个是Mobile Computing——PC时代的后一个时代。从宏观经济的观察角度来看，去年PC芯片的市场规模大约在550亿美金，但PC所赋能的生态市场规模大约在9000亿美金，这里差距在20倍左右。同样，Mobile chip市场规模大约在350亿美金，但是Mobile市场大约在8000亿美金的规模，是25倍的关系。因此，我们得出一个结论，把芯片做好了，至少可以赋能20到25倍于它自身的市场。当它的生态市场足够大，又有足够的资源投入的时候，商业价值就像滚雪球一样越滚越大，这是我们的立论。

此外，我们还可以从另一个视角来进一步验证这个立论。大概20年前我还是学生的时候，人们都还在用诺基亚手机——这是一款很老的机型，它能发短信、打电话，还能玩“贪吃蛇”的游戏。20年前的手机市场几乎可以算是饱和市场，因为其达到了人手一台的程度。但是，当年手机市场规模是100亿美金，今天我们的手机市场规模是8000亿美金。那么，诺基亚时代的手机跟现在的手机有什么差别？差别在于现在的手机多了很多APP，这是一种完全不同的生态模式，而这种生态将市场扩容了近80倍。尽管今天我们看到机器人都很“笨”，可能只能完成一个功能，比如扫地机器人。但它就像我们当年的功能手机，只能操作最基础的功能。因此，我们预测，机器人具身智能的市场会有相似的趋势。如果最后机器人生态要商业化大发展，那么未来它不能是功能机，应该是一个智能机的形态。从算力的角度来看，功能机90%的算力在打电话，而智能机90%的算力在APP，这是其本质的区别。

未来的设想与挑战

那么，我们想在具身智能的发展层面做些什么呢？今天我们研究了各种机器人的设计，基本是三个功能——感知、定位、规划。这些功能运用了多少算力呢？大概在95%。也就是说，今天大多数机器人95%的算力都用在了基础功能上，没有额外算力去完成其他功能。我们希望的是，尽可能做到将20%的算力用于基础工作，预留出80%的算力给智能和应用层面。如果能达到这样的程度，就可以迎来一个大发展的周期，可以研发各种有趣的应用。比如，在智能车上可以有很多娱乐系统，可以看AR、VR，有机器人在家里帮你做家务，有自动医疗车帮你看病，这是我们对机器人最终生态的一个设想。

但是在这个生态来临之前，我们遇到了三重挑战。

第一，机器人所需的软件系统远复杂于过去任何软件系统。现在大模型在与用户交互的过程中，就已经损耗很多的算力。如果在机器人身上，比如手臂如何移动，如何开发智能化地图，这些算法都十分复杂。这样的情况带来了怎样的直接影响？我们如果去看近年来两类上市公司的报表，一类是谷歌、微软，一类是自动驾驶公司，关注其每年的营收放在研发上的比例，会发现自动驾驶公司85%-90%的营收放在研发上，员工个人能为公司创造的价值基本上是0。再看谷歌和微软，他们大概20%的营收放在研发，但是员工人均能为公司带来几百万美金的收入，这是其成功的原因。谷歌和微软的可扩展性（scalability）是随着他的数据和算力而变化，不是随着人；但是自动驾驶是随着人变化的，有多少人就有多少能力，就有多少代码，所以这个软件栈（soft stack）是很难商业化的。因此，我们得出结论，想解决软件系统过于复杂的问题，必须先解决一个问题，那就是如何把软件栈简化，让scalability随着投入的算力和数据变化，而不是随着投入的人而变化。

第二个挑战是目前没有一个适合的计算机体系结构给具身智能用。因为具身智能很复杂，它的软件栈就很复杂，它的计算就更复杂。简单地说，就是我们需要经过很多轮的优化。所以目前我们设计的目标是20%放在基础算力，80%留给上层的应用。

第三个挑战是我们现在对数据的运用并不充分。互联网数据值多少钱？今天如果你去问扎克伯格，他的答案会是：一个互联网用户的价值是600美金。前互联网世界大概有50亿的用户，所以大概是3万亿的市场价格。那么，如果放在一个机器人上，要投入多少钱来提取数据？大概是1000美金。再推测一下，当机器人达到最终态的时候，这个世界会有多少机器人？马斯克推测大概会有100亿台机器人。如果我们将两者相乘，可以预测，未来达到饱和态的时候，它将是一个10万亿美金的市场。但今天最大的问题是我们没有很好的数据收集方法。比如，OpenAI用的是互联网的数据，它的收集是天然的，互联网公司都可以收集。但是由于机器人公司目前并无恰当的数据收集方法，导致很多厂商把数据扔掉，完全用不起来。因此，怎样设计一个数据收集的计划，对未来智能的衍生将起到重要作用。

*本文内容由刘少山在前海国际事务研究院主办的“人工智能与智能机器人对社会发展与经济影响”主题研讨会上的发言整理和扩充而成。

本文作者
刘少山：深圳市人工智能与机器人研究院具身智能中心主任。

*原创声明：本文版权归微信订阅号“大湾区评论”所有，未经允许任何单位或个人不得转载、复制或以任何其他方式使用本文部分或全部内容，侵权必究。公众号授权事宜请直接于文章下方留言，其他授权事宜请联系IIA-paper@cuhk.edu.cn。

GBA Review 新传媒
文章整理｜周宇笛冯箫凝
校对 | 杨芸淞
排版 | 许梓烽
初审 | 覃筱靖
终审 | 冯箫凝

随着具身智能机器人技术的快速发展，相关人才的需求也在不断增加，为了帮助大家系统性地总结和分析当前具身智能机器人系统的发展现状和前沿研究，为未来的研究和开发工作提供指导，甘一鸣、俞波、万梓燊、刘少山老师共同编写了《具身智能机器人系统》一书。
具身智能机器人系统涉及多个学科，本书有助于促进跨学科的交流与合作，推动各领域专家共同解决复杂问题，实现技术突破。
本书可以作为高校和科研机构的教材，为学生和研究人员提供系统的学习资源，培养更多的专业人才。
同时，随着具身智能机器人技术对社会的影响越来越大，通过本书可以向公众普及相关知识，提升社会对新技术的认知和接受度，为技术的发展创造良好的社会环境。
具身智能机器人在解决实际问题中展现出巨大的潜力，例如，应用在养老、医疗、灾害救援等领域。本书可以为研究人员和工程师提供具体的技术解决方案，帮助他们更好地应用技术，解决现实中的各种问题。

图书分类

高可靠系统构建指南：服务稳定性建设与技术债务治理

特色专题

帮助

刘少山：“具身机器人”如何改变世界？

博文小编

读者评论

相关博文

社区使用反馈专区

迎战“双12”！《Unity3D实战核心技术详解》独家预售开启！

请问“下载资源”这个版块在哪？找半天没找着。