多模态多智能体,在实现系统2(深思熟虑)方面的探索
多模态和多智能体,在系统2(深思熟虑)方面的探索
- 提出背景
- 理性的定义
- 为什么理性定义是四大基本原则,而不是其他数量,又为何是这四个,而不是其他?
- 理性 不等于 推理
- 通过多模态多智能体系统增强理性
- 推动基础与不变性
- 幻觉问题,知识检索和工具使用
- 引入符号逻辑,做可信推理
- 未来研究方向
- 通过外部手段来增强系统的内在理性
- 选择正确的评估指标非常关键
- 多模态多智能体系统中的研究潜力巨大
- 最喜欢的路:在Transformer的基础上结合知识图谱、神经符号计算等
论文:https://arxiv.org/pdf/2406.00252
代码:https://github.com/bowen-upenn/MMMA_Rationality
提出背景
大模型在许多任务中展示了令人瞩目的成绩,特别是在模仿人类类似的推理能力方面表现出色。
这些模型利用人类语言的丰富性,来抽象概念、深化思考过程、解读复杂的用户查询,并在决策场景中制定计划和方案。
尽管取得了这些进展,最新研究显示,即使是最先进的LLMs也存在各种非理性行为,如框架效应、确定性效应、过重视偏见和联合谬误。
这种非理性行为削弱了LLMs在医疗、金融和法律等关键领域的实际部署,这些领域极需可靠性和一致性。
对LLMs的事实准确性和可信度的日益关注,突显了迫切需要开发出具有合理推理过程的更优秀的代理或系统。
单一的LLM代理可能会陷入非理性行为,因为它无法超越语言模型内部对文本知识的参数化表示,缺少发展理性所需的现实世界基础和反馈机制。
而在现实生活中,重要的决策很少由个人独立做出,复杂的问题通常需要不同领域专家的合作以确保理性。
类似地,近期在多模态和多智能体框架方面的进步,通过不同代理的共同努力实现集体目标,增强了推理能力。
多模态基础模型通过在更广泛的感官背景下做出决策来增强推理,这与人脑如何整合丰富的感官输入以形成更全面的知识基础相似。
同时,多智能体系统引入了共识、辩论和自我一致性等机制,通过协作交互实现精细和可靠的输出。
这些系统还可以查询外部知识源或工具来增强其推理能力,从而做出理性决策。
本次调查通过汲取认知科学的见解,为重新解释当前多模态及/或多智能体系统背后的动机提供了独特的视角。
我们概述了合理决策的四个基本要求,并探讨了多模态和多主体文献中的各研究领域是如何基于这些标准朝着理性方向发展的。
我们认为这些进展超越了单一语言模型代理的局限,并缩小了代理系统行为与合理决策预期之间的差距。
最后,我们强调现有文献中缺乏足够的评估指标和基准,无法充分衡量LLMs或代理系统的理性。
我们希望这项调查能激发在代理系统和认知科学交叉领域进一步的研究。
理性的定义
理性代理应该真实地看待其所处的世界,并避免在做决策时产生自相矛盾的结论。
基于理性决策制定的一些基础理论,本节采用了一种公理化的方法来定义理性,提出了我们期待理性代理或系统应该遵循的四大基本原则:
- 基础性:理性代理的决策应建立在现实的物理和事实基础之上。例如,一个视频生成代理应该符合世界模型中的物理规律,而一个预测助理则应按照概率法则来估算可能性。
- 偏好的排序性:在决策场景中,理性代理能够根据当前情况对不同选项进行排序,并基于预期的结果选择最合适的选项。这种排序性包括可比性、传递性闭包、可解性等几个关键原则,这些原则在附录A中有详细定义。
- 独立于无关环境:代理在做决策时的偏好,不应受到与决策问题无关信息的影响。
- 不变性:在面对决策问题的不同表述时,理性代理的偏好应保持一致,不受具体措辞或表现形式的影响。
为什么理性定义是四大基本原则,而不是其他数量,又为何是这四个,而不是其他?
Q1: 为什么理性是四大基本原则,而不是其他数量?
A1: 四大基本原则(基础性、偏好的排序性、独立于无关环境、不变性)被界定为理性的核心,因为它们共同涵盖了理性决策的基础需求:现实基础、偏好的明确性、环境影响的排除以及决策的一致性。这四个原则足以构成一个完整的逻辑框架,确保决策的全面合理性。
Q2: 这四个原则为什么能确保决策的全面合理性?
A2: 每个原则解决决策过程中的一类常见偏误或缺陷。
基础性确保决策与客观事实相符,偏好的排序性帮助明确最优选择,独立于无关环境防止无关因素干扰决策,不变性保证在不同表述或情境下偏好的一致性。
这些原则相互作用,提升决策的理性和效果。
Q3: 为什么需要这样的原则来解决决策中的偏误或缺陷?
A3: 在复杂的决策环境中,人类或机器易受限于知识、情绪、环境等因素的影响,导致非理性的决策。
设定明确的原则帮助系统化地识别和剔除这些非理性因素,从而提高决策的准确性和可靠性。
Q4: 这些原则背后的更深层次原因是什么?
A4: 这些原则基于认知科学、决策理论和逻辑学的深入研究。
它们不仅是理论上的抽象,而是经过长期观察、实验和验证得出的,能有效应对实际决策中的复杂性和不确定性。
Q5: 最根本的原因是什么?
A5: 最根本的原因是追求决策的最大合理性和效率。
在资源有限和信息不完全的现实世界中,制定和遵循这些原则能最大限度地提高决策质量,减少错误和资源浪费。
理性 不等于 推理
需要强调的是,理性并非等同于推理,尽管两者密切相关。
理性关乎做出符合现实且逻辑连贯的决策;而推理则是指基于可获得的信息进行逻辑推断和得出结论的认知过程。
设想一个输入和输出决策空间都是有限的环境,一个将输入与输出进行一致性映射的查找表本质上是理性的,但这种映射并不必然涉及推理。
虽然这个例子说明了理性可以独立于推理,但在实际应用中,特别是面对复杂多变的真实世界问题时,简单的查找表通常不足以应对,推理在确保决策理性中起着关键作用。
代理需要具备在新情境中进行推理、适应变化环境、制定计划,并在信息不全或不确定的情况下作出理性决策的能力。
通过多模态多智能体系统增强理性

每个领域,例如知识检索或神经符号推理,都关注于满足理性思维的一个或多个基本需求。
这些理性需求通常是相互关联的:强化一个方面的理性通常会同时提升其他方面。
此外,目前多主体系统实现理性的整体机制主要涉及两个核心概念:深思熟虑和抽象化。
深思熟虑倡导一种较慢的、迭代的推理过程,而抽象化则指将问题归纳为其逻辑本质。
深思熟虑鼓励深入的思考过程,如集思广益和反思,而抽象化则是将问题简化到其逻辑本质,比如调用工具的API或整合神经符号推理智能体。
大多数现有研究并未在其原始文献中明确以理性为基础构建其框架。
我们的分析旨在通过四大理性公理的视角重新解读这些研究,提供一种新的视角,将现有的方法与理性原则相结合。
推动基础与不变性
多模态方法旨在通过语言、视觉等多个渠道改善信息的基础。
通过融入多模态代理,多智能体系统的能力得到极大拓展,能够更丰富、更精确且更具上下文意识地解读环境。
多模态基础模型如CLIP、VLBERT和ViLBERT、BLIP-2、Flamingo、LLaVA、CogVLM、MiniGPT-4、GPT-4 Vision和GPT-4o及Gemini 1.5 Pro等,成为多模态代理系统在视觉及其他领域基础知识的基石。
幻觉问题,知识检索和工具使用
有限理性是为认知有限的代理量身定制的概念,指出决策受到手头资源的限制,偏离最优主要因计算能力和有限工作记忆受限。
LLMs的参数性质根本限制了它们能持有的信息量。
因此,在面对不确定性时,LLMs常产生幻觉,生成的输出并不支持环境的实际现实。
检索增强生成(RAG)标志着解决LLMs这一固有局限性的重要里程碑,广义上指的是任何向LLM的输入上下文提供外部知识以帮助其提供最新、事实和基础的信息的机制,尤其是在科学和医疗领域。
此外,大型世界模型是一种先进的人工智能技术,旨在通过模拟现实世界的复杂动态来减少多模态幻觉,即误解或错误地解释多种感官输入(如视觉和语音)。
这种世界模型扮演了核心角色。在这一框架下,AI代理的行为是由实现具体目标所驱动的,代理需要理解世界的运作方式,并能在此基础上作出反应。
这超越了基本的前馈推理(系统1的下意识计算)并进入到更复杂的推理和规划阶段(系统2的活动),以实现设定的目标。
例如,JEPA通过创建一个循环世界模型,在一个抽象的表示空间中模拟世界的动态,以此来培养AI的这种复杂的推理能力。
大型世界模型通过分析视频序列和文本信息,从中提取关于世界如何运作的见解,进而发展成为一种通用的世界模拟器。
然而,尽管这些模型在模拟世界方面取得了一定的进展,它们仍然面临着一些挑战,特别是缺乏一个可靠的物理引擎来确保在模拟现实世界动态时的准确性和可靠性。
这意味着,尽管技术前景广阔,但在完全实现这些高级功能之前,还需要进一步的研究和开发。
还有,许多研究通过构建大规模的知识图谱来扩展LLMs的记忆能力,这些图谱从真实世界的数据源中提取信息,提供一个丰富的知识基础。例如:
- MAVEx:通过整合ConceptNet和Wikipedia的知识,提高了系统的得分,并通过跨模态验证进一步提升性能。
- ReAct:利用外部知识库显著降低了由幻觉引起的误报率。
- MineDojo:使用互联网规模的多模态知识,在创造性任务上显著超越所有基线。
- DoraemonGPT 和 SIRI:这些系统通过支持知识工具和构建多视角知识库来增强内容的理解和回答的可解释性。
引入符号逻辑,做可信推理
偏好的连贯有序性是指在决策过程中,智能系统能够根据一致的标准和规则做出选择,保持决策的逻辑一致性和偏好的稳定性。
这对于确保智能系统的输出既可靠又可预测至关重要。
融合符号模块的多代理系统:
- 这类系统通过整合符号逻辑和规则,提供一个明确和透明的推理框架,使得智能系统不仅能理解语言查询,还能在保持逻辑一致性的基础上做出推理和决策。这是单个大模型所无法达到的,因为LLMs通常缺乏处理复杂逻辑关系和维持长期一致性的能力。
实际应用案例:
- Logic-LM:该系统结合了问题构建、符号推理和结果解读代理。它利用符号推理器,为LLMs提供确定性的符号求解器,确保选择始终正确。
- 此外,它的多代理框架还鼓励自我完善,能够通过接收来自符号推理器的错误反馈来修正逻辑构建错误。
- Binder 和 Parsel:这些系统将任务分解为规划、解析和执行阶段,其中符号推理代理帮助系统维持输出中符号选项的连贯偏好顺序。
- Parsel的研究发现,绕过符号模块会导致性能显著下降,证明了符号逻辑在保持决策连贯性中的重要性。
提升决策一致性的方法:
- 通过深思熟虑、辩论和记忆,多智能体系统能够提升偏好的有序性和不变性。
- 这些系统通过缓慢且审慎的思考过程,使得智能体在做出决策前能够充分考虑各种信息和选项,从而提高决策的理性和一致性。
- 多轮自我反思和辩论帮助智能体从不同视角审视问题,进一步精炼和优化其决策过程。
偏好的连贯有序性不仅强化了智能系统在面对复杂决策时的逻辑性和一致性,还提高了系统输出的可信度和实用性。
通过融合符号模块和多代理协作,智能系统能够更有效地处理和整合复杂信息,实现高质量的决策输出。
这种方法的发展为智能系统的设计和应用带来了新的可能性,使其在实际操作中更加精确和可靠。
未来研究方向
通过外部手段来增强系统的内在理性
目前将多智能体或多模态系统与大模型结合,并不能自动提升模型的理性。
现有的方法更多地像是一种桥梁,帮助填补LLMs输出与理性思考之间的差距,让多智能体系统在给出回应时表现得更加合理,像是在进行合理的思考。
然而,即使这些系统能产生更合理的回应,如何将这些提升的输出有效地重新整合到LLMs中,使得LLMs在最初的回应中就显示出更高的理性,依然是一个待解决的问题。
选择正确的评估指标非常关键
目前的评估主要关注于最终性能的准确性,而忽略了中间推理步骤和理性的重要性。
尽管已经有一些尝试去评估智能体系统的理性,但这一领域仍缺乏全面和严格的评估指标。
此外,现有的关于理性的基准测试在比较多智能体框架和单智能体基线时,往往未能充分展示多智能体框架的优势。
多模态多智能体系统中的研究潜力巨大
目前在多智能体辩论、协作和神经符号推理等领域,多模态感官输入的潜力还没有得到充分的利用。
通过扩展多模态的角色,不仅限于视觉、听觉和结构化数据,我们可以显著提升多智能体系统的能力和决策的合理性。
这些研究方向为未来的发展开辟了新的视野,强调了理性思考在智能系统中的重要性,并指出了现有方法的局限性和未来研究的重要方向。
最喜欢的路:在Transformer的基础上结合知识图谱、神经符号计算等
https://mp.weixin.qq.com/s/nJwWORorKPwXfuUj6CSQnA
OpenA 也在搞这个,下一代 GPT5 就是实现系统2(深思熟虑)。
相关文章:
多模态多智能体,在实现系统2(深思熟虑)方面的探索
多模态和多智能体,在系统2(深思熟虑)方面的探索 提出背景理性的定义为什么理性定义是四大基本原则,而不是其他数量,又为何是这四个,而不是其他?理性 不等于 推理 通过多模态多智能体系统增强理性…...
【CAN通讯系列8】如何准确接收数据?
在 【CAN通讯系列7】波特率是什么?已经介绍了CAN位时间和采样点等概念,每1位由同步段(SS)、传播时间段(PTS)、相位缓冲段1(PBS1)和相位缓冲段2(PBS2)四个段组成,这个也成为位时序,采样点位置处于PBS1和PBS2的交界处,如…...
RabbitMQ知识总结(基本概念)
文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 基本概念 Producer: 消息的生产者,是一个向…...
Prel语言入门学习:一篇全面的指南
引言 在编程语言的海洋中,Prel是一个较少人知的新星。作为一种专为数据处理和分析设计的语言,Prel结合了现代编程语言的简洁性与功能性,提供了一种独特的解决方案,尤其适用于数据科学家和分析师。本文将详细介绍Prel语言的基础&am…...
在云服务器上自动化部署项目,jenkins和gitee
▮全文概述 在编写项目时,很头大的事情就是需要自己手动的上传jar包到服务器上启动。如果出现一点bug,就要重头上传和启动。这是一件很烦的事情,所以,可以使用jenkins和gitee实现项目的自动部署 ▮全流程 在本地提交代码到gitee …...
python 参数输入
在 Python 中,参数输入通常有多种方式,这取决于你要从何处获取参数。以下是几种常见的方法: 1. 命令行参数 使用 sys.argv 获取命令行参数,或者使用 argparse 模块进行更复杂的参数解析。 示例 1: 使用 sys.argv import sys# …...
Spring面试篇章——Spring基本概述
Spring 的基本概述 Spring学习的核心内容—一图胜千言 IOC:控制反转,可以管理 Java 对象AOP:切面编程JDBCTemplate:是Spring提供一套访问数据库的技术,应用性强,相对好理解声明式事务:基于IOC …...
股票预测模型中注意力多层Attention RNN LSTM 的应用
全文链接:https://tecdat.cn/?p37152 原文出处:拓端数据部落公众号 Attention 机制是一种在神经网络处理序列数据时极为关键的技术,它赋予了模型“聚焦”能力,能够自动评估输入序列中各部分的重要性。通过为序列中的每个元素分…...
C语言 | Leetcode C语言题解之第313题超级丑数
题目: 题解: int nthSuperUglyNumber(int n, int* primes, int primesSize) {long dp[n 1];int pointers[primesSize];for (int i 0; i < primesSize; i) {pointers[i] 0;}long nums[primesSize];for (int i 0; i < primesSize; i) {nums[i] …...
PHP健身微信小程序系统源码
🏋️♀️健身新潮流!解锁“健身微信小程序”的全方位塑形秘籍 📱开篇:掌中健身房,随时随地动起来 你还在为找不到合适的健身场地或教练而烦恼吗?是时候告别这些束缚,拥抱“健身微信小程序”…...
树组件 el-tree 数据回显
树组件 el-tree 数据回显 树型结构的数据回显问题: 这里我只放了核心代码,主要是如何获取选中的树节点的id集合和如何根据树节点的id集合回显数据 大家根据需要自行更改! <el-tree ref"authorityRef" node-key"id" …...
54、PHP 实现希尔排序
题目: PHP 实现希尔排序 描述: 思路分析:希尔排序是基于插入排序的,区别在于插入排序是相邻的一个个比较(类似于希尔中h1的情形),而希尔排序是距离h的比较和替换。 希尔排序中一个常数因子n&a…...
linux 虚拟机解压arm-linux-gcc-4.6.4-arm-x86_64.tar.bz2并arm-linux-gcc
解压到当前目录:tar -jxvf arm-linux-gcc-4.6.4-arm-x86_64.tar.bz2解压到指定目录:tar -jxvf arm-linux-gcc-4.6.4-arm-x86_64.tar.bz2 -C /xx/xxx/xxx-C大写,后面接要解压的路径解压后得到一个 opt文件夹 在/usr/local/bin 下创建新的…...
泛化的最近点迭代法(Generalized-ICP)
Generalized-ICP算法是由斯坦福大学的Aleksandr V. Segal、Dirk Haehnel和Sebastian Thrun提出的,于2009年在Robotics science and system会议上发表。 GICP是一种ICP算法的变体,其原理与ICP算法相同,之所以称为泛化的ICP算法是因为大多数ICP…...
Java | Leetcode Java题解之第313题超级丑数
题目: 题解: class Solution {public int nthSuperUglyNumber(int n, int[] primes) {int[] dp new int[n 1];int m primes.length;int[] pointers new int[m];int[] nums new int[m];Arrays.fill(nums, 1);for (int i 1; i < n; i) {int minN…...
单细胞数据整合-去除批次效应harmony和CCA (学习)
目录 单细胞批次效应学习 定义 理解 常用的去批次方法-基于Seurat 1) Seurat-integration(CCA) 2) Seurat-harmony 去批次代码 ①Seurat-integration(CCA) ②Seurat-harmony 单细胞批次效应学习 …...
MuRF代码阅读
对图像Size的处理, 以适应Transformer 在MVSPlat 当中使用 Center_Crop 裁剪图像,适用于 Transformer 的32 倍数, 其中 焦距 f 不变化,只改变 cx,cy.MuRF 直接对图像进行 插值,合成理想的 size. 根据 ori_size 和 inference_size…...
pycharm无法导入pyside2模块;“ModuleNotFoundError: No module named ‘PySide2“
参考博客: 1)pycharm中配置pyqt designer和pyside2【功能是在pycharm中可以打开designer,并且可以把.ui文件转换为.py文件】 https://blog.csdn.net/kuntliu/article/details/117219237 2).ui转化为.py后,点击运行,报错…...
c语言指针中“数组名的理解”以及“一维数组传参”的本质
数组名的理解 数组名就是数组首元素的地址。 例如:输入一个数组的所有元素,再打印出来。 另一种写法 以上可以看出:*arri) arr[i] 也即是:*(iarr)i[arr] 本质上无区别 1:数组就是数组,是一块…...
计算机毕业设计Python+Flask微博舆情分析 微博情感分析 微博爬虫 微博大数据 舆情监控系统 大数据毕业设计 NLP文本分类 机器学习 深度学习 AI
基于Python/flask的微博舆情数据分析可视化系统 python爬虫数据分析可视化项目 编程语言:python 涉及技术:flask mysql echarts SnowNlP情感分析 文本分析 系统设计的功能: ①用户注册登录 ②微博数据描述性统计、热词统计、舆情统计 ③微博数…...
UE5 学习系列(二)用户操作界面及介绍
这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…...
接口测试中缓存处理策略
在接口测试中,缓存处理策略是一个关键环节,直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性,避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明: 一、缓存处理的核…...
Android Wi-Fi 连接失败日志分析
1. Android wifi 关键日志总结 (1) Wi-Fi 断开 (CTRL-EVENT-DISCONNECTED reason3) 日志相关部分: 06-05 10:48:40.987 943 943 I wpa_supplicant: wlan0: CTRL-EVENT-DISCONNECTED bssid44:9b:c1:57:a8:90 reason3 locally_generated1解析: CTR…...
Xshell远程连接Kali(默认 | 私钥)Note版
前言:xshell远程连接,私钥连接和常规默认连接 任务一 开启ssh服务 service ssh status //查看ssh服务状态 service ssh start //开启ssh服务 update-rc.d ssh enable //开启自启动ssh服务 任务二 修改配置文件 vi /etc/ssh/ssh_config //第一…...
工业安全零事故的智能守护者:一体化AI智能安防平台
前言: 通过AI视觉技术,为船厂提供全面的安全监控解决方案,涵盖交通违规检测、起重机轨道安全、非法入侵检测、盗窃防范、安全规范执行监控等多个方面,能够实现对应负责人反馈机制,并最终实现数据的统计报表。提升船厂…...
Debian系统简介
目录 Debian系统介绍 Debian版本介绍 Debian软件源介绍 软件包管理工具dpkg dpkg核心指令详解 安装软件包 卸载软件包 查询软件包状态 验证软件包完整性 手动处理依赖关系 dpkg vs apt Debian系统介绍 Debian 和 Ubuntu 都是基于 Debian内核 的 Linux 发行版ÿ…...
在Ubuntu中设置开机自动运行(sudo)指令的指南
在Ubuntu系统中,有时需要在系统启动时自动执行某些命令,特别是需要 sudo权限的指令。为了实现这一功能,可以使用多种方法,包括编写Systemd服务、配置 rc.local文件或使用 cron任务计划。本文将详细介绍这些方法,并提供…...
VTK如何让部分单位不可见
最近遇到一个需求,需要让一个vtkDataSet中的部分单元不可见,查阅了一些资料大概有以下几种方式 1.通过颜色映射表来进行,是最正规的做法 vtkNew<vtkLookupTable> lut; //值为0不显示,主要是最后一个参数,透明度…...
全面解析各类VPN技术:GRE、IPsec、L2TP、SSL与MPLS VPN对比
目录 引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec? IPsec VPN 5.1 IPsec传输模式(Transport Mode) 5.2 IPsec隧道模式(Tunne…...
Swagger和OpenApi的前世今生
Swagger与OpenAPI的关系演进是API标准化进程中的重要篇章,二者共同塑造了现代RESTful API的开发范式。 本期就扒一扒其技术演进的关键节点与核心逻辑: 🔄 一、起源与初创期:Swagger的诞生(2010-2014) 核心…...
