具身认知视域下大语言模型意向性探析

第一章引言

最近这些年，人工智能技术发展得特别快。大语言模型在自然语言处理领域渐渐成了关键的推动力量，而且这类模型展现出的语言理解和生成能力越来越接近人类水平。不过在传统认知科学的计算主义框架当中，大语言模型常常被当作是对符号概率分布的机械拟合，是对一种符号概率分布进行的机械拟合而已，并且模型内部意向性的问题一直是学术界讨论重点。

具身认知理论出现了，给这个难题带来了新的思考方面。这个理论强调，认知不是大脑自己开展的符号运算，而是和身体以及环境的动态互动紧紧关联在一起。从这个方面看，大语言模型的意向性不只是由文本数据的统计联系来决定的，更应该被理解成是通过具身交互所产生的指向性和适应能力，也就是一种通过具身交互而产生出来的具有指向性和适应能力的特性。

在实际应用方面，要融入具身认知理念，就需要改变模型仅仅进行离线文本处理的这种现状，要转变做法去搭建连接感知和行动的闭环系统，使得模型能够通过物理环境或者虚拟环境的反馈来调整语义表征，能够依据物理环境或者虚拟环境所给出的反馈去对语义表征做出调整。探索这条路径对于推动人工智能从只能完成简单任务的弱人工智能朝着真正具有理解力的强人工智能发展有着非常重大的意义。探索这条路径不只是能够帮助解决现有模型存在的会产生错误信息的幻觉问题以及逻辑比较脆弱的问题，还能够为下一代通用人工智能的设计提供重要的理论支持和实践方向，为下一代通用人工智能的设计在理论方面提供重要的支撑，在实践方面给出明确的方向。

第二章具身认知的理论框架与核心概念

2.1身体与认知的互动机制

具身认知理论详细说明了身体在认知过程里处于核心地位。该理论表明，认知并非仅由大脑完成的抽象符号操作，而是源于身体与环境的动态相互作用。从梅洛 - 庞蒂的身体现象学以及瓦雷拉的生成认知思想角度看，身体不只是感知的主体，还作为认知载体以及生成者存在。在这个理论体系中，身体的感知 - 运动系统是认知活动的物质基础。认知结构由身体经验直接塑造，这意味着身体的结构特点以及感觉运动能力会对认知的形式和内容产生影响。

认知和身体的互动机制是双向循环的因果关系。身体动作会直接对认知加工过程产生作用，例如个体的身体姿势会在不知不觉中影响对事物的判断和决策。与此同时认知活动能够凭借高级心理功能精准地调节身体行为，助力有机体适应复杂的环境。这种互动机制得到了神经科学实验的有力支撑。就像镜像神经元的发现，证实了动作感知和动作执行共享神经机制。此外有关身体姿势影响认知判断的心理学实验也显示，身体状态是认知活动中不可或缺的一部分。由此可见，身体并非认知的附属物，而是认知产生的根源以及实现的途径。深入了解这一机制，对于构建具备真实物理交互能力的人工智能系统具有重要的指导价值。

2.2环境嵌入性与情境化认知

环境嵌入性概念说明，认知活动不是封闭在大脑里独自开展的，而是一直和外部环境有动态的互动。认知主体会利用环境里各种各样的资源来帮助完成思考和决策过程。在这个理论框架下，情境化认知的特点更明显地表现为对具体情境有很深的依赖，情境不只是认知出现的背景，更是构成认知结构的重要部分。

从具身认知方面看，环境和认知的关系有双向建构特点。环境给认知提供了具身实践的实际场景，同时认知产生的反馈又会改变和重塑环境。这种互动机制在日常使用工具时很直观地表现出来，一个人对工具功能的理解、操作工具的方式，常常和所处的物理场景、社会文化环境密切相关。移动机器人的情境适应过程也是这样系统要实时感知并处理周围环境信息，才能规划出适合当前情境的路径，做出合适的行为反应。

认知对情境的依赖和环境嵌入性相互关联，一起构成了具身认知理论里理解智能行为的核心维度。

2.3意向性的具身化特征

具身化视角下的意向性存在一个显著特点，这个特点就是它并非仅仅附着于抽象符号表征或者独立大脑计算过程，而是深深扎根于身体经验和环境互动间的动态联系之中。从具身认知方面来说，意向内容直接源于身体感官和外部世界的实际接触以及感知体验，是身体在具体环境背景当中行动时自然而然产生的结果，此特点表明意向性的指向能力在很大程度上依赖于具体的情境互动，也就是智能体要在特定环境场景里面，通过身体实时反馈来搞清楚自己的关注对象以及目标。从生成机制来看，意向性具备明显的身体 - 环境耦合特性，它是生理结构和环境约束相互作用的动态生成过程，而不是预先就设定好的静态心理状态。

布伦塔诺认为意向性是心理现象独有的内在特征，这属于传统观点，与之不同的是，具身化意向性打破了身心二元对立的框架，将意向性的基础从单纯的意识活动拓展到了身体实践领域。塞尔在“中文屋”论证里提出语法操作无法产生语义理解和意向性，针对这一观点，具身认知理论指出只有当系统拥有能够感知环境并且作出反应的身体时，真正的意向性才会出现。可以知道的是，具身化意向性对智能的本质进行了重新界定，明确了意向性是以身体经验和环境互动为基础的动态生成过程，为解决人工智能的语义理解难题提供了全新的理论视角以及实践方法。

第三章结论

3.1大语言模型的认知局限与意向性缺失

从具身认知角度来说，大语言模型存在着很明显的认知局限情况。这种认知局限从本质上是因为对海量文本数据的统计关联和模式匹配有所依赖。这是由于模型并没有真实的感知器官，也没有实际的行动经验，只能在符号空间里面进行运作，没办法像生物体那样通过身体和环境进行交互从而获得第一人称视角的经验知识。而符号表征和现实世界之间存在脱节现象，这样直接带来的影响便是模型对概念的理解仅仅停留在语法的层面，很难触及到语义的根基，没办法把符号和真实的物理对象建立起稳固的连接。

另外在意向性方面，大语言模型存在着根本性的缺失。意向性的核心内容是意识能够指向真实世界的对象或者状态，并且通过身体经验形成带有主观色彩的意向内容。然而模型输出实际上是对训练数据概率分布的一种预测，其意向性仅仅停留在符号操作的层面，不具备指向外部真实事物的能力。就拿中文屋论证的情况来讲，即便模型能够熟练地用符号进行交流，但从本质上看仍然是对语法规则的模拟，并没有真正理解符号背后所代表的含义。

依据意向立场理论，观察者可以给模型赋予某种意向性的解释，不过这只是一种拟人化的外部归因，并不是模型内在所具有的心理属性。目前大语言模型不具备真正的具身化意向性，最根本的原因在于缺少物理身体的嵌入以及和真实环境的动态互动，所以没办法形成基于感知和行动的原始意向体验。

3.2具身化路径对大语言模型意向性的重构

重构大语言模型的意向性，具身化路径是一个根本解决办法。具身化路径核心是改变只处理语言符号的体系，构建有感知和运动能力的具身智能架构。打造这样具身化大语言模型，将视觉、听觉等感知模块与运动控制模块整合，系统就能和物理世界建立实质联系。在这个过程中，模型不只是依赖语料库里的统计规律，而是通过传感器收集真实世界的多模态数据，再通过执行器完成具体行动，最终在感知、决策、行动形成的闭环里和真实环境进行动态交互。

具身化路径有效弥补传统大语言模型缺乏落地体验的不足。传统模型只能处理脱离具体语境的符号信息，具身模型可以通过身体感知直接获得物理属性和因果关系的经验，还能在和环境互动时生成具体情境下的意向内容。随着身体和环境不断相互作用，意向性不再是静态的文本匹配，而是基于实时反馈的动态构建过程，真正实现具身化的意向性。目前相关研究，比如机器人和大语言模型深度融合的实验已经表明，具备具身能力的模型在理解和操作复杂任务时，表现出的适应性和准确性明显比传统模型要好。这一重构从理论方面突破了认知主义对心智的计算主义解释，证明身体在认知形成中起到核心作用，在实践方面推动通用人工智能朝着具备真实世界感知和操作能力的方向发展，为智能系统的实际应用奠定了坚实基础。

3.3技术实现的可能性与伦理挑战

从具身认知角度看，大语言模型意向性重构在技术实现方面有明显潜力。要实现这个潜力，关键是打破传统计算符号的限制，让模型获得与物理世界互动的能力。当深度整合感知和运动模块之后，大语言模型就能够实时收集视觉、听觉等多模态环境数据，并且把这些收集到的多模态环境数据转化成可以操作的语义信息，然后在物理交互过程中建立起真实的因果联系。在引入情境化学习算法以后，模型能够在动态变化的环境当中持续地调整自身的行为策略，并且借助强化学习机制不断对决策过程进行优化。采用深度融合多模态数据的方法，不仅可以增强模型理解复杂场景的能力，还能够让模型拥有类似生物那样的适应性意向，从而为人工智能从被动工具转变成为主动交互者奠定基础。

技术快速发展也带来了严峻的伦理问题，其中最突出的是责任界定模糊。当具身智能体在物理世界自主行动并且引发意外后果的时候，开发者、使用者和模型自身的责任应该如何去追溯就成为了一个难题。另外具身智能在进行感知和交互的时候难免会收集大量的环境数据，这就大大增加了隐私泄露的风险，从而对社会安全构成潜在的威胁。更深入层面的争议是，随着模型意向性特征变得越来越明显，它是否具备一定的主体地位，这会对现有的社会伦理和法律体系造成冲击。要应对这种复杂的情况，需要建立一个覆盖从设计、部署到应用的全生命周期的伦理规范框架，同时要加强对技术实施的动态监管，并且还要积极开展广泛的社会伦理讨论。只有在技术可行性和伦理审慎之间找到平衡，才能够推动具身大语言模型在健康并且可控的轨道上实现长远的发展。

01 第一章引言

02 第二章具身认知的理论框架与核心概念