具身智能的崛起、后果和意义
(一)
在人工智能一波又一波的浪潮中,经过人工智能嵌入的具身智能(embodied intelligence)异军突起,正在成为人工智能科技体系的集大成者,在收割人工智能的各类成果中,全面崛起。而在具身智能的背后,正在走来的是一个将与碳基人类并存,很可能凌驾于碳基人类的新物种。可以这样想象,具身智能所体现的新物种,如同金庸笔下的中的“九阳神功”和“吸星大法”那种超自然奇幻力量,贯通武学至理,成就永恒的“金刚不坏之躯”。[1]
在2024年,如何思考和解读在人工智能技术改造和改变的具身智能,具有科技、学术和现实意义。正是在这样的背景下,刘志毅撰写的《具身智能—AI智能体、世界模型与人类可触碰的未来》一书的出版,正是生逢其时。
(二)
关于具身智能的理论,源远流长,至少可以追溯到认知主义、计算主义和笛卡尔(RenéDescartes,1596 - 1650)的二元论。以埃德蒙德·胡塞尔(Edmund Husserl,1859—1938),马丁·海德格尔 (Martin Heidegger, 1889-1976 )和莫里斯·梅洛-庞蒂 (Maurice Merleau-Ponty, 1908-1962)所代表的现象学家为具身智能理论做出了重要贡献。莫里斯·梅洛-庞蒂有过极为清晰的观点:身体是存在于世界上的载体,对于一个生物来说,拥有身体就是拥有在一个确定的环境的中介。
具身智能的思想演进如下图

具身认知的历史脉络
近年来,具身智能日益成为一个跨学科的概念和理论。人们逐渐在具身理论和概念方面形成共识。“通过使用‘具身’一词,我们的意思是强调两点:首先,认知取决于拥有具有各种感觉运动能力的身体所带来的各种经验,其次,这些个体的感觉运动能力本身就嵌入到一个更具包容性的生物、心理和文化背景中”。[4]见下图

具身认知的跨学科性质
值得注意到是,在科幻小说史中,具身智能却早已经成就了无数故事的主题和主人公角色。甚至可以说,没有具身智能的想象力和创造力,就没有科幻小说和其他艺术形式。从雪莱夫人在1818年问世的《弗兰肯斯坦》的“科学怪人”,到威廉·吉布森1984年发表的《神经漫游者》主人公凯斯,其实都是具身智能和具身智能物种的呈现。毫无疑义,文学性的具身智能远远走在了具有科技支持和现实性的具身智能之前。
(三)
“在人类心智与人工智能的交汇点上,我们正经历着一场革命”。从比较宏观的角度看,人工智能嵌入的具身智能是三个变量的结合:人工智能,具身智能和自然智能。在这三个变量的结合中,形成了所谓基于人工智能技术的具身智能。
在本书中,作者触及到人工智能嵌入的具身智能的概念和理论。“在人工智能(AI)的广阔领域中,具身智能(Embodied AI)的概念正引领一场深刻的范式转变。具身智能不仅仅是对机器人物理形态的智能化,它更是一种哲学和认知科学的融合体现,强调智能的生成与发展源自智能体与环境之间的动态互动”。“具身通用人工智能通过感知-认知-行为的闭环,实现了对世界的持续学习和适应。这个闭环过程是AI系统智能行为的基础,它涉及到对外部世界的感知、基于感知数据的认知处理、以及基于认知结果的行动决策”。简言之,“具身认知理论的核心思想是,智能并非一个抽象的、独立于身体和环境之外的实体,而是与个体的生理特性和所处的环境紧密相连的”。
作者认为,具身智能所关注的是“身体、大脑和环境之间的相互作用”。“正如生物学中的自然选择过程一样,具身人工智能系统提供视觉、听觉和触觉等感官模态,捕捉外部世界的信息,并将其转化为抽象的概念和模式”。“旨在通过模拟人类的学习方式,使智能体在物理或虚拟环境中通过互动完成复杂任务的学习”。“具身智能的核心在于其学习方式的革新。与传统AI依赖大量数据和算法不同,具身智能更侧重于通过感知、探索和实验与物理世界的互动来学习,这与人类婴儿的学习过程有着惊人的相似性。从学习行走到掌握语言,人类的学习过程充满了探索和实践,具身智能正是模仿这一过程,以实现更加自然和灵活的智能行为”。
进而,作者努力描述了实现人工智能科技和具身智能结合的科学方法,涉及“机器人学”、深度学习、强化学习、机器视觉、计算机图形学、自然语言处理、元学习和认知科学。
关于机器人学的作用,作者写到:“在认知模型的整合方面,机器人学的研究推动了机器学习、神经网络、计算机视觉与认知科学理论的交叉应用。这种跨学科的合作,使得机器人能够在处理外部感官输入的同时,进行更高级别的信息处理和决策制定,从而实现更加复杂和自主的行为模式”。
那么,是否可以对人工智能嵌入的具身智能加以定义呢?回答是肯定的。以下的描述具有概括性:“具身智能是通过考虑智能体与其环境(位置性)之间的严格耦合来设计和理解具身和定位智能体的智自行为的计算方法,由智能体自身的身体、知觉和运动系统以及大脑(具身)的约束所介导的”。
本文作者总结的人工智能嵌入的具身智能定义是:以人形机器人等各类机器人作为物理载体,通过构建智能系统支持的感知层、交互层、运动层,形成诸如强化学习能力,并以第一人称视角,在可持续的类人类的行为反馈中,实现形态计算、感觉运动协调和发展具身认知,以及对外部物理世界的互动。
(四)
生物学是具身智能的前提。这是因为,自然智能基于大脑的高级功能,而大脑高级功能是神经细胞通过完成信号的整合实现的。大脑是极端复杂的组织。“脑的本质是集成与复合同时存在”,“脑存在于身体这个环境中”。[7]大脑执行的功能最终从根本上区分了有脑动物(encephalized animals)和地球其他生命形式。
在人的神经系统中,神经元是关键所在。“在人体数十以个神经元中,每个神经元都有数千个突触,进行着人体中股民最大、最协同的细胞对话。神经元之间的连接纷繁复杂,不计其数。成人有800亿个神经元,其中每个神经元都有多达10万个突触,因而总数可能达到10000亿。然而更令人震惊的是,神经元之间的连接还会再同一时间以多种方式进行不断变换。神经元有时会构成一种回路,有时又会构成另一种截然不同的回路”。

更为重要的是,神经具有可塑性,即“神经可塑性”。其本质就是神经元连接变化所致。“神经可塑性可以改变一个树突棘、多个树突棘、整个树突、整个神经元,也可以改变大脑各部分之间宽广神经回路的多个神经元”。
所以,“这种从生物学中提炼的灵感,激发了模仿大脑神经元网络连接和信息处理机制的神经网络设计,这些网络不仅能够执行复杂的数据分析,还能够进行精密的决策制定,宛如技术复刻了大自然的智慧,赋予了机器类似生物的思考和学习机制”。
作者具体提出了生物学对于具身智能的若干作用:其一,生物体的神经系统、免疫系统、细胞信号传导等复杂机制,是汲取生物学智慧的首要步骤。神经网络的设计受到了人脑结构的启发。其二,模拟生物进化的原理,如自然选择、遗传和变异,对于指导AI算法的迭代和优化至关重要。遗传算法就是对生物的自然选择和遗传机制的模仿。其三,借鉴生物系统的稳健性和冗余设计,对于提高AI系统的容错能力和稳定性至关重要。其四,引入生物学的持续反馈和迭代原理。
作者也讨论了生物学视角的局限性。主要体现在:生物系统的复杂性和不确定性限制了我们对它们的完全理解。生物启发的模型可能无法完全捕捉到人工智能的全部潜力和复杂性。生物学原理在解释和模拟某些智能行为时表现出色,但在处理更高层次的认知功能,如意识、情感和创造性思维时,可能会遇到难以克服的障碍。
人工智能和具身智能的结合,神经科学至关紧要。“神经科学与人工智能的交叉研究,正在开启一场前所未有的科技革命”。
作者认为,“神经可塑性,作为神经科学领域的一个核心概念,描绘了大脑神经元及其连接如何根据经验和环境的变化进行动态调整和重组的过程”。“神经可塑性,这一揭示大脑适应性和学习能力的概念,已经成为推动人工智能领域创新和发展的强大引擎”。神经科学的相关贡献包括:神经机制是构建有效AI算法的前提;模拟神经网络结构是AI发展的关键;学习和记忆机制的研究,是提升AI算法性能的重要途径;计算神经科学的应用,为构建数学模型和仿真系统提供了工具和理论。特别是,“深度学习网络,作为AI的基石之一,通过模拟大脑神经元的连接和权重调整,已经实现了从图像识别到自然语言处理的广泛应用”。
作者并以生成对抗网络(generativeantagonistic networks, GANs),脉冲神经网络(spiking neural networks, SNNs),深度神经网络(deep neural networks, DNNs)和卷积神经网络(convoluted neural networks, CNNs),以及自然语言处理(naturallanguage programming, NLP)模型为案例,证明神经科学对于具身智能的根本性作用。
作者正视了脑机接口技术(brain–machine interface,BMI)的作用:直接将大脑的神经信号与计算机系统或机械设备相连,实现神经科学和人工智能交叉融合。如同链接大脑与机器的神秘桥梁。
2024年5月10日出版的Science杂志刊登了以GoogleResearch和哈佛大学脑科学中心分子与细胞生物学系AlexanderShapson-Coe等21名作者联合署名的文章《以纳米级分辨率重建人类大脑皮层颗粒片段》(“A petavoxel fragment of human cerebral cortexreconstructed at nanoscale resolution”)。该文介绍和描述了对一个立方毫米的人类颞叶皮层的超结构的计算密集型重建:它包含约57,000个细胞,约230毫米的血管和约1.5亿个突触,数据量为1.4 PB。分析显示,胶质细胞数量是神经元的两倍,少突胶质细胞是最常见的细胞,深层的兴奋性神经元可以根据树突的方向分类,在每个神经元的数千个弱连接中,存在罕见的多达50个突触的强大轴突输入。利用这个资源进行的进一步研究可能会为揭开人类大脑的奥秘带来宝贵的见解。[10]
毫无疑义,生物科学,神经生物学,特别是基于电子显微镜,通短波长电子,以及自动化和快速成像方式重建每个细胞元素和突触,不仅对于脑科学、神经生物学,而且对于AI技术和具身智能的突破,具有持续的重大意义。
(五)
在人工智能与具身智能的深度融合的过程中,“空间智能”(spatial vision)概念的提出和实践,成为了最为引人入目的领域。[11]本书作者这样写道:“空间智能的探索代表着人工智能领域的一个激动人心的前沿,其核心目标不仅仅是对场景进行抽象理解,而是在于实时捕捉和正确表示三维空间中的信息,以实现精准的解释和行动”。“空间智能的理论探索核心在于空间认知的神经机制,这是理解大脑如何处理空间信息的关键”。
从根本意义上说,“空间智能”概念对应的是人类的视觉系统。
生物在数十亿年的进化过程中,形成各式各样的感官。在距今5.43亿年前的寒武纪,一种名为莱氏虫的三叶虫身上长出了地球生物的第一只眼。之后,眼睛对于生物的演化起到重要的作用。眼睛的结构如同一台精密无比的仪器。科学研究发现,“视觉系统是人类和高等动物最重要的外层,70%-80%的外界信息经视觉系统及乳大脑”。“眼中的视网膜可作为大脑的一个独立前哨。它接受并分析信息,然后把这种信息通过一条清晰的通道——视神经传入高级中枢作进一步处理”。
所以,“空间智能的核心在于机器能够模拟人类的复杂视觉推理和行动规划能力,而‘纯视觉推理’的实现则是机器人领域的一个巨大突破。这种技术使得机器人能够在没有多种传感器辅助的情况下,通过视觉信息直接理解和操作3D世界”。“空间智能”需要算法支持。“空间计算作为一种新兴的计算范式,正逐渐成为人工智能和计算机视觉领域的一个重要分支。它的核心在于将虚拟体验无缝融入物理世界,通过使用人工智能、计算机视觉和扩展现实技术,实现对三维空间的深度理解和智能交互”。空间计算的关键技术包括三维重建、空间感知、用户感知和空间数据管理等。
作者进而提出了“空间智能与具身智能的整合策略”。“空间智能与具身智能的整合正逐渐成为推动技术进步的新引擎”。强调“这种整合不仅涉及到技术层面的深度融合,还关联到认知科学、神经科学、心理学等多个学科的理论基础”。
作者对空间智能颇有期许:“未来,空间智能有望成为智能系统的核心,推动人工智能向更高层次的自动化和智能化发展。通过模拟人类的感知和推理能力,空间智能将使机器能够更好地理解和互动与复杂的三维世界,为人类社会带来更加丰富和便捷的生活体验”。
在书中,作者特别介绍了空间人工智能(spatialAI)概念:“Spatial AI系统的目标是连续地捕获正确的信息,并构建正确的表示,以实现实时的解释和行动,超越了抽象的场景理解”。
21世纪后,经济学领域的“空间经济学”(spatial economics)兴起和形成很大影响。空间经济学的研究对象包括空间经济结构、布局因素、形成条件及这些因素间的相互联系,以寻求合理的、布局协调的经济发展模式。空间经济学的空间和视觉空间的空间,都要超越地理的物理的所谓三维空间,进入多维和多模态状态。所以,“空间经济学”和“空间视觉”存在相同之处,很可能在未来发生交集。
(六)
这本书的第二部分题目是“具身智能的深邃世界”。在这一部分一共有五章,作者所触及和探讨的确实是具身智能,乃至人工智能的深层结构问题。具体说,有以下几个问题
第一,关于“统一表征理论”(unifiedrepresentation theory)。近年来,统一表征理论,也称之为表征系统理论。该理论主张,在人工智能领域提供统一的编码和转换框架,用以消除对特定于系统的转换算法的需求。在表征系统理论背后的动机是,克服缺乏通用方法来处理跨人工智能系统使用的不同表征形式主义的问题。或者说,表征系统理论就是编码、分析和转换表征的统一方法。从理论的角度来看,预测编码(predictive coding)可以解决不同领域过多的深奥概念,将诸如动力学、确定性作用和随机性作用、涌现、自组织、信息、熵、自由能、稳态等抽象概念整合到统一框架之中。

尽管存在贝叶斯原理,贝叶斯定理,贝叶斯概率和贝叶斯推断等不同概念,但是,万变不离其宗。不论是贝叶斯原理,还是贝叶斯定理,都是概率论中的一个重要原理。“它描述了如何更新先验知识(prior knowledge)为新的观测数据(evidence)提供条件概率(conditional probability)”。特别是,“贝叶斯定理可以用于更新先验知识,以便在新的数据到来时进行更准确的预测和决策”。[15]其中,贝叶斯推断与主观概率有密切关系,常常称为“贝叶斯概率”。这种方法建立在主观判断的基础上,允许在没有客观证据的情况下先估计一个值,然后根据实际结果不断修正。正是因为贝叶斯推断的价值,所以作者在本书中,对“主动推断理论”做了比较深入的探讨。