说在前面
这些都是等价的定义
Embodied AI = Embodied Intelligence = 具象AI = 具身智能
Internet AI = Disembodied AI = 非具身智能
时间线:
2015年,伊尔亚·苏茨克维(Ilya Sutskeve)离开谷歌参与创办了OpenAI。
2017年, 谷歌AlaphaGo(2014年启动研究计划)先后击败世界排名第二、第一的李在石、柯洁。
2017年,A股科大讯飞(语音处理、自然语言处理)实现了122%的涨幅,值得一提的是,在近期ChatGPT等大语言模型引起的新一轮AI浪潮下,科大讯飞已经从去年底(22年11月28日)的30元涨到65元(2023年4月7日)。
2017.10 海康威视成为深市最大市值公司(图像处理),代表事件:抓到张学友演唱会逃犯。
2018年,亚马逊Alexa语音助手开始大卖,Lennar Corporation将Alexa配套加入建造的35,000套新房屋中。
2022年11月,OpenAI发布ChatGPT,两个月后,月活用户突破1亿,是史上用户增长速度最快的消费级应用程序。
先抛出几个定义
不用完全理解,建立初始印象。
具身(Embodiment):指具有支持感觉和运动(sensorimotor)的物理身体。
具身的 (Embodied):具有身体的,可参与交互、感知的。
具身智能(Embodied AI):有身体并支持物理交互的智能体,如家用服务机器人、无人车等。 —— “身体力行”
非具身智能(Disembodied AI):没有物理身体,只能被动接受人类采集、制作好的数据 。—— “纸上谈兵”或者说 “运筹帷幄”
具身智能机器人:满足具身智能的能力的机器人。
具身任务:像人类一样通过观察、移动、说话和与世界互动从而完成的一系列任务。
多模态:是指一个模型或系统能够处理多种不同类型的输入数据并融合它们生成输出。这些数据类型可能包括文本、图像、音频和视频等。
主动交互:机器人或智能体与环境的实时交互,从而提高智能体的学习、交流和应对问题的能力。
具身智能
机器人,是人工智能的最终解决方案。什么意思呢?
具体点说,像人一样能与环境交互感知,自主规划、决策、行动、执行能力的机器人/仿真人(指虚拟环境中)是AI的终极形态,我们暂且称之为“具身智能机器人”。它的实现包含了人工智能领域内诸多的技术,例如计算机视觉、自然语言处理、机器人学等。要想全面理解认识人工智能是很困难的,其客观原因如同朱松纯教授所言:
全面认识人工智能之所以困难,是有客观原因的。
其一、人工智能是一个非常广泛的领域。当前人工智能涵盖很多大的学科,我把它们归纳为六个:
(1)计算机视觉(暂且把模式识别,图像处理等问题归入其中)、
(2)自然语言理解与交流(暂且把语音识别、合成归入其中,包括对话)、
(3)认知与推理(包含各种物理和社会常识)、
(4)机器人学(机械、控制、设计、运动规划、任务规划等)、
(5)博弈与伦理(多代理人agents的交互、对抗与合作,机器人与社会融合等议题)。
(6)机器学习(各种统计的建模、分析工具和计算的方法),
这些领域目前还比较散,目前它们正在交叉发展,走向统一的过程中。我把它们通俗称作“战国六雄”,中国历史本来是“战国七雄”,我这里为了省事,把两个小一点的领域:博弈与伦理合并了,伦理本身就是博弈的种种平衡态。最终目标是希望形成一个完整的科学体系,从目前闹哄哄的工程实践变成一门真正的科学Science of Intelligence。[1]
人工智能作为一个含义甚广的领域,当然在这里只用简单理解其核心内涵:通过机器学习、深度学习、强化学习等学习方法,辅助人类洞察数据背后隐藏的模式,超越人类在诸多特定任务的能力,赋予智能体自主学习、进化的理论范式。近十年来,计算机视觉、自然语言处理等技术已经在图像识别、语音处理等任务有爆炸性的发展,方方面面的集成应用也早已经融入平常百姓家的日常生活。
可是,具有物理实体、能够与真实世界进行多模态交互,像人类一样感知和理解环境,并通过自主学习出色完成复杂任务的智能体,仍没有跳出科幻电影的剧本,拥入现实世界的怀抱。我们目前看到的还是一些玩具化的人形机器人,迈着呆板的步伐,做着看起来simple and easy的展示性任务(其实是很不容易的),例如,国内的优必选等。诚然,想达到Boston Dynamics那样令人瞠目结舌的运动能力,需要极其先进的底层控制和硬件支撑,这还得仰仗国内学术、工业界共同的努力。
一个有灵魂的机器人/仿真人被制造出来,磕磕碰碰地生活在人类世界,在此过程中碰撞出爱情、友情、亲情……相信你对这个剧本并不陌生,匹诺曹、剪刀手爱德华、银翼杀手等作品都已精彩演绎。[2]
人们对于机器人有很多美好的想象,于我也是,但恐惧也何尝没有呢?小时候看的威尔史密斯主演的机械公敌,很长时间都是我的童年阴影。 我想,无论是在学术界、工业界,人们对于具身智能机器人既有憧憬也有担忧,就像马斯克最近在呼吁暂停开发比GPT-4更强大的AI系统。这是正常的,古往今来,颠覆性的理论技术在实用化落地前都会经历保守和激进派两方的辩论碰撞,但新的科技最终都将在多方博弈下以某种相对安全的形式引领人类社会往前迈进。
李飞飞:“具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。”
结合李飞飞和上海交大卢策吾的说法[4],具身指的不仅仅是具有物理身体,而且是具有与人一样的身体体验的能力。如图中的猫一样,主动猫是具身的智能,它可以在环境中自由行动,从而学习行走的能力。被动猫只能被动的观察世界,最终失去了行走能力。

前者就像我们给AI模型喂很多数据,这些数据是人类整理,打过标签的。我们将其定义为Internet AI,与Embodied AI相对应。

目前,具身智能已经成为国际学术前沿研究方向,包括美国国家科学基金会在内的机构都在推动具身智能的发展,今年的 IROS将具身智能作为一个很重要的主题提了出来,谷歌公司 Everyday Robot 的SayCan已经将机器人和对话模型结合到一起[6],能够让机器人在大型语言模型的帮助下,完成一个包含 16 个步骤的长任务。UC 伯克利的 LM Nav 用三个大模型(视觉导航模型 ViNG、大型语言模型 GPT-3、视觉语言模型 CLIP)教会了机器人在不看地图的情况下按照语言指令到达目的地[7]。
Internet AI(Disembodied AI)和Embodied AI的辨析
旁观型标签学习方式 v.s. 实践性概念学习方法
Internet AI从互联网收集到的图像、视频或文本数据集中学习,这些数据集往往制作精良,其与真实世界脱节、难以泛化和迁移。1)数据到标签的映射。2)无法在真实世界进行体验学习。3)无法在真实世界做出影响。
Embodied AI通过与环境的互动,虽然以第一视角得到的数据不够稳定,但这种类似于人类的自我中心感知中学习,从而从视觉、语言和推理到一个人工具象(Artificial Embodiment),可以帮助解决更多真实问题。[5]
1950年,图灵在他的论文 ——《Computing Machinery and Intelligence》中首次提出了具身智能的概念。在之后的几十年里,大家都觉得这是一个很重要的概念,但具身智能并没有取得很大的进展,因为当时的技术还不足以支撑其发展。
We may hope that machines will eventually compete with men in all purely intellectual fields. But which are the best ones to start with? Even this is a difficult decision. Many people think that a very abstract activity, like the playing of chess, would be best. It can also be maintained that it is best to provide the machine with the best sense organs that money can buy, and then teach it to understand and speak English. This process could follow the normal teaching of a child. Things would be pointed out and named, etc. Again I do not know what the right answer is, but I think both approaches should be tried. ——Alan Turing
上面图灵所说的下围棋和使机器具备感官、能说英语、能学习就分别代表了非具身智能和具身智能,而两种智能形态的此消彼长也贯穿了人工智能研究这跌宕起伏的七十年。
“非具身智能聚焦于智能中表征与计算的部分。早在符号主义大行其是的六七十年代,非具身智能就占据了绝对的优势。不需要物理交互、不考虑具体形态、专注抽象算法的开发这一系列有利条件使得非具身智能得以迅速地发展。今天在算力和数据的支持下,深度学习这一强有力的工具大大推进了人工智能研究,非具身智能已经如图灵所愿、近乎完美地解决了下棋、预测蛋白质结构等抽象的独立任务。互联网上充沛的图片和语义标注也使得一系列视觉问题取得了突出的成果。
然而这样的智能显然是有局限的。非具身智能没有自己的眼睛,因此只能被动地接受人类已经采集好的数据。非具身智能没有自己的四肢等执行器官,无法执行任何物理任务,也缺乏相关的任务经验。即使是可以辨识万物的视觉大模型也不知道如何倒一杯水,而缺乏身体力行的过程,使得非具身智能体永远也无法理解事物在物理交互中真实的意义。
相比而言,具身智能具有支持感觉和运动的物理身体,可以进行主动式感知,也可以执行物理任务,没有非具身智能的诸多局限性。更重要的是,具身智能强调“感知—行动回路”(perception-action loop)的重要性,即感受世界、对世界进行建模、进而采取行动、进行验证并调整模型的过程。这一过程正是“纸上得来终觉浅,绝知此事要躬行”,与我们人类的学习和认知过程一致。

在人工智能的发展中,人们也是逐渐意识到了具身的重要性。符号主义带来的人工智能寒冬中, 很多学者开始反思符号主义,MIT 的 Rodney Brooks 等人抨击了非具身智能主张的先思考再做事的发展路径。Rodney Brooks 认为智能是在与环境的交互作用中表现出来的,因此是行为产生了智能。其基本观点是让机器人到环境中去,进行物理交互,从而积累和发展初级的智能。他因此将研究的重心放在了具身智能,研究如何让机器人移动和适应环境,于 1986年诞生了第一个基于感知行为模式的轮式机器人。该机器人不需要中枢控制,实现了避让、前进和平衡等功能。Rodney Brooks 也成为了人工智能和机器人学中行为主义的代表性人物。今天对如何发展真正的智能仍然是一个开放的问题,而具身智能作为符合人类认知规律的一种发展途径也受到了广泛的讨论。
除了在路线层面的探讨外,当下具身智能的重点放在了机器人如何智能地执行物理任务上,如发展无人车、家用服务机器人等等。这些任务在现实世界中有着广泛的需求,为具身智能的发展起到了重要的助推作用。
除了工业界的大力推动,在学术上具身智能也是大放异彩。围绕着具身智能,众多学科领域各显其能:
机器人学为具身智能提供了机械的身体和基本的运动控制;
深度学习中的神经网络仍然是具身智能中主要的工具;
基于试错的强化学习成为了具身智能中机器人技能的一种主要学习手段;
计算机视觉给具身智能提供了处理视觉信号的能力;
计算机图形学开发的物理仿真环境给具身智能提供了真实物理世界的替代,大大加快了学习的速度并降低了成本;
自然语言给具身智能带来了与人类交流、从自然文本中学习的可能;
认知科学进一步帮助具身智能体理解人类、构建认知和价值。” [9]
这些领域分别对应了具身智能所需要的能力模块:
总的来说,具身智能机器人:首先,要能够听懂人类语言,然后,分解任务,规划子任务,移动中识别物体,与环境交互,最终完成相应任务。理想很丰满,现实中的机器人止步于“听懂人类语言”,人们依然严重依赖手写代码来实现对机器人的控制。很明显,人-机器人交互是首当其冲的问题。
英伟达机器人研究高级主管、华盛顿大学教授 Dieter Fox : 机器人研究的一个关键目标是构建在现实世界中对人类有帮助的机器人。但要做到这一点,它们必须首先接触并学习如何与人类交互。
如何实现更加便利的人机交互?
GPT等大模型的出现提供了新思路——已有不少研究者尝试将多模态的大语言模型与机器人结合起来,通过将图像、文字、具身数据联合训练,并引入多模态输入,增强模型对现实中对象的理解,帮助机器人处理具身推理任务。
谷歌、微软的AI团队走在前列,试图以大模型为机器人注入灵魂。
3月8日,谷歌和柏林工业大学的团队重磅推出了史上最大的视觉-语言模型——PaLM-E,参数量高达5620亿(GPT-3的参数量为1750亿)。具体来说, PaLM-E-562B 集成了参数量 540B 的 PaLM 和参数量 22B 的视觉 Transformer(ViT),作为一种多模态具身视觉语言模型(VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,可以执行各种复杂的机器人指令而无需重新训练。谷歌研究人员计划探索PaLM-E在现实世界场景中的更多应用,例如家庭自动化或工业机器人。他们希望PaLM-E能够激发更多关于多模态推理和具身AI的研究。

在最近的一项研究中,微软团队在探索如何将 OpenAI研发的ChatGPT扩展到机器人领域[8],从而让我们用语言直观控制如机械臂、无人机、家庭辅助机器人等多个平台。研究人员展示了多个 ChatGPT 解决机器人难题的示例,以及在操作、空中和导航领域的复杂机器人部署。

很明显,谷歌和微软对具身AI有高度相似的期许:人类操作机器人,不需要学习复杂的编程语言或机器人系统的细节,“言出”(向机器人口述/比划需求)即“法随”(机器人完成任务)[2],达到“得心应手,如臂使指“的境界。可以预见,基于自然语言控制的机器人控制,将成为未来热门的研究方向。
在使用ChatGPT几个月后,我仍觉得其有很大的探索空间,基于GPT开发的插件在提高工作效率上有很大的潜力,比如ChatPaper可以帮助快速阅览论文;EditGPT可以帮忙润色英文写作。体验下来,大语言模型对数据的归纳梳理能力毫无疑问早已超越人类,理解、逻辑推理能力也是出乎意料的强大,黄仁勋将ChatGPT的问世称之为AI界的“iPhone时刻”。在某些问题上,向ChatGPT提问比向百度、Google等搜索引擎提问更加快速且有效。GPT-4相比于GPT-3.5,增加了理解图像的能力;基本没有误解问题的情况,甚至能够去处理更复杂的任务。简而言之,它的可靠性更好。例如,GPT-4能够写诗,可以写押头韵的诗,也能写押尾韵的诗。甚至它能去理解笑话,能明白笑话背后的意思。还有一个例子体现出GPT-4的理解能力得到了进一步的进化。
考虑这样一个问题,“在一个蒸锅中,蒸熟一个馒头需要10分钟,如果放10个馒头,需要几分钟蒸熟?”
百度的文心一言回答:需要100分钟,理由是:蒸熟一个馒头需要10分钟,10个要10*10=100分钟。
ChatGPT回答:蒸熟一个馒头需要10分钟,蒸熟十个馒头需要的时间取决于蒸馒头的方式。如果使用同一蒸锅蒸煮所有的馒头,通常需要比蒸一个馒头的时间稍长一些,因为蒸锅需要时间将水再次加热到沸腾的温度。
一般来说,当蒸锅中的馒头数量增加时,需要增加一些蒸馒头的时问。通常,蒸熟10个馒头需要大约15到20分钟的时间。具体时间还会受到蒸锅大小、馒头大小和厚度等因素的影响,所以最好根据实际情况适当调整蒸馒头的时间。
高下立判。
所以,ChatGPT等先进的大语言模型对实现具身智能中便利的人机交互有着至关重要的作用。
Sim2Real
训练具身智能的一种直接方法是将它们直接放置在物理世界中。这很有价值,但在现实世界中训练机器人速度慢、危险(机器人可能会摔倒并摔坏)、资源密集型(机器人和环境需要资源和时间)并且难以重现(尤其是罕见的边缘情况)。另一种方法是在逼真的模拟器中训练具身代理,然后将学到的技能转移到现实中。模拟器可以帮助克服物理世界的一些挑战。模拟器可以比实时运行快几个数量级,并且可以在集群上并行化;模拟培训安全、便宜。一旦在模拟中开发和测试了一种方法,就可以将其转移到在现实世界中运行的物理平台。
很大概率,具身智能是通向通用人工智能的更Promising的一条路。