湖南吉首建设官方网站/恩城seo的网站
原创 | 文 BFT机器人
你的日常待办清单或许只是些稀松平常的小事:清洗堆积如山的碗盘、采购琳琅满目的食品杂货等。在执行这些任务时,你无需逐一写下“捧起那只满是油污的盘子”或“用湿润的海绵仔细擦洗这个盘子”这样的琐碎步骤,因为在你的脑海中,这些步骤早已如同呼吸般自然而流畅。然而,对于机器人而言,要完成这些看似简单的动作,却需要一份详尽无遗、错综复杂的行动计划。
在麻省理工学院的Improbable AI实验室里,隶属于CSAIL(计算机科学与人工智能实验室)的一个精英团队,正致力于为这些机器赋予更为智能的多模态框架。他们的最新研究成果——Hierarchical Planning(HiP)组合基础模型,正是这一努力的结晶。HiP模型巧妙地融合了三种不同基础模型的专业知识,从而制定出既详细又切实可行的行动计划。与OpenAI引以为傲的GPT-4相似,ChatGPT和Bing Chat等先进应用也都是基于这一强大的基础模型构建而成的。这些基础模型经过精心训练,已广泛应用于图像生成、文本翻译、机器人技术等多个领域。
与RT2等多模态模型相比,HiP展现出了独特的优势。传统的多模态模型通常依赖于配对的视觉、语言和动作数据进行训练,而HiP则采用了三个独立的基础模型,每个模型都专注于处理特定类型的数据模态。这种分工明确的架构使得每个基础模型都能够更好地捕捉决策过程中的不同环节,并在需要时协同工作以做出明智的决策。更为重要的是,HiP彻底消除了对配对数据的需求,此外,HiP还让推理过程变得更加透明和可解释,为人工智能领域的发展注入了新的活力。
对于人类而言,那些日常琐事——比如整理书架上的书籍或将碗盘放入洗碗机——可能只是随手可做的简单动作。然而,对于机器人来说,这些任务却如同“长期目标”一般,需要它们先理解并规划出许多细小的步骤,才能最终完成。因此,机器人需要海量的数据来辅助它们理解、规划和执行这些目标。
过去,计算机视觉领域的研究人员曾试图构建一个单一的基础模型来解决这个问题,但这种做法需要将语言、视觉和动作数据一一配对,不仅成本高昂,而且效果并不理想。然而,麻省理工学院的研究团队提出的HiP模型,却为这个问题提供了一种全新的多模态解决方案。HiP模型将语言、物理和环境智能以经济高效的方式整合到机器人中,形成了一种三重组合。这种组合不仅让机器人能够更好地理解和执行任务,还大大降低了数据配对的成本。
“我们不必再局限于单一的基础模型,”并未参与该研究的NVIDIA AI研究员Jim Fan评论道,“这项创新性的工作将复杂任务的规划问题分解为三个相互协作的模型:语言推理器、视觉世界模型和动作规划器。这样的分解使得原本棘手的决策问题变得更加简单和透明。”
研究团队坚信,他们的人工智能系统将成为家务劳动的有力助手,帮助机器人完成诸如整理书籍、清洗碗盘等日常任务。不仅如此,HiP模型在多步骤的建筑和制造任务中也大有可为,比如按照特定顺序堆叠和放置不同材料。这一研究成果无疑为机器人技术的进一步发展奠定了坚实基础。
对HiP模型的评估
CSAIL团队在三项复杂的操作任务上对HiP模型的准确性进行了严格测试,结果显示其表现优于其他可比较的先进框架。这套系统展现出了出色的智能规划能力,能够灵活适应新信息并进行精准推理。
在第一项测试中,研究人员设置了一个颇具挑战性的任务:要求机器人将不同颜色的积木堆叠起来,并将其他积木放置在附近。但任务的关键难点在于,并非所有所需颜色的积木都现成的,这意味着机器人需要发挥创意,将白色积木放入彩色碗中上色,以获取所需的颜色。面对这样的变化,HiP模型展现出了令人印象深刻的适应能力,它不仅能够准确地识别出哪些积木需要上色,还能通过精心调整计划,确保每个积木都能按照要求被精准地堆叠和放置。
第二项测试则更加考验HiP模型的物品识别和计划调整能力。研究人员要求机器人在一个棕色箱子中摆放糖果和锤子等物品,同时忽略其他无关物品。在这项任务中,有些需要移动的物品是脏的,这就要求机器人在摆放前先进行清洁处理。HiP模型再次展现出了其卓越的智能性,它不仅能够准确地识别出哪些物品需要清洁,还能灵活地调整计划,先将这些物品放入清洁箱进行处理,然后再放入棕色箱子中。
在第三项演示中,研究人员为机器人设置了一系列厨房相关的子目标,如打开微波炉、把水壶放到一边并打开灯等。这些任务中有些步骤已经提前完成,因此机器人需要根据实际情况进行调整。HiP模型再次发挥出了其强大的推理能力,它能够准确地识别出哪些步骤已经完成,哪些还需要执行,并通过智能地跳过已完成的步骤来高效地完成任务。
三叉层级体系
HiP的三层计划过程呈现出一个精巧的层次结构,这种结构赋予了它在不同数据集上预训练各个组件的独特能力,甚至包括那些与机器人技术毫不相关的信息。在这个层次结构的底层,一个强大的大型语言模型(LLM)开始发挥其作用,它通过捕捉所有必要的符号信息并制定抽象的任务计划,为整个过程奠定了坚实的基础。
Anurag Ajay,这位来自麻省理工学院电气工程和计算机科学系(EECS)的博士生,同时也是CSAIL的重要成员,深入阐述了HiP的设计理念:“我们的目标是充分利用现有的预训练模型,使它们能够无缝地相互协作。”他强调说,“我们并没有期望一个模型能够包揽所有任务,而是将多个利用互联网数据不同模态的模型结合在一起。当它们协同工作时,它们能够为机器人决策提供有力支持,并有望在家庭、工厂、建筑工地等多种场景中发挥实用价值。”
然而,这些人工智能模型要想在现实世界中发挥作用,还需要一双“慧眼”来帮助它们理解操作环境并准确执行每个子目标。为此,研究团队引入了一个大型视频扩散模型,以增强LLM的初始规划能力。这个视频模型从互联网上的海量视频中汲取有关世界的几何和物理信息,然后生成一个精确的观察轨迹计划,进一步细化LLM的纲要,以整合新的物理知识。
这个过程被称为迭代细化,它允许HiP在不断反思和完善其想法。每个阶段都会接收反馈以生成更加实用的纲要,这种反馈流程类似于撰写文章时的修订过程:作者将草稿发送给编辑进行审查,根据反馈进行修订,然后再提交给出版社进行最终的审查和完善。
在HiP的层次结构中,顶部是一种本体动作模型,它根据机器人周围的环境推断出应该执行的动作序列。在这一阶段,从视频模型获得的观察计划被映射到机器人可见的空间中,为机器人提供决策支持,帮助它确定如何在长期目标中逐步完成每个任务。以沏茶为例,如果机器人使用HiP来执行这个任务,它将能够精确映射出壶、水槽和其他关键视觉元素的位置,并有条不紊地完成每个子目标。
尽管HiP已经展示出了令人瞩目的能力,但多模态人工智能工作仍然受到高质量视频基础模型缺乏的限制。一旦这些模型变得可用,它们将与HiP的小规模视频模型进行无缝对接,从而进一步提高视觉序列预测和机器人动作生成的能力。更高质量的视频模型还将降低当前模型对数据的需求,使其更加高效和实用。
值得一提的是,CSAIL团队在开发HiP时采用了高效的数据利用策略,整体上只使用了少量数据。此外,HiP的训练成本相对较低,这展示了使用现成基础模型来完成长期任务的巨大潜力。
总结
对于HiP的未来发展方向,麻省理工学院电气工程和计算机科学系(EECS)助理教授、Improbable AI实验室主任Pulkit Agrawal充满期待地表示:“Anurag所展示的成果是一个概念验证,它证明了我们可以将在不同任务和数据模态上训练的模型组合起来,用于机器人规划。未来,HiP有望通过引入更多预训练模型进行扩展,这些模型可以处理触觉、声音等多种感官信息,以制定更加全面和精细的计划。”该团队还在积极探索将HiP应用于解决机器人领域的真实长期任务的可能性,以期为机器人技术的未来发展开辟新的道路。
若您对该文章内容有任何疑问,请与我们联系,我们将及时回应。
相关文章:

HiP框架:多AI模型联手,助力机器人驾驭复杂规划大局
原创 | 文 BFT机器人 你的日常待办清单或许只是些稀松平常的小事:清洗堆积如山的碗盘、采购琳琅满目的食品杂货等。在执行这些任务时,你无需逐一写下“捧起那只满是油污的盘子”或“用湿润的海绵仔细擦洗这个盘子”这样的琐碎步骤,因为在你的…...

关于OC中变量相关知识点
众所周知,变量是用来存储数据的 围绕着变量,有很多知识点,总结归纳一下 变量的类型变量的作用区域局部变量全局变量静态变量变量的访问范围属性成员变量实例变量synthesizedynamic… 变量的类型 变量大致分为两大类型: 基本数据…...

机器学习分类模型评价指标总结(准确率、精确率、召回率、Fmax、TPR、FPR、ROC曲线、PR曲线,AUC,AUPR)
为了看懂论文,不得不先学一些预备知识((55555 主要概念 解释见图 TP、FP、TN、FN 准确率、精确率(查准率)、召回率(查全率) 真阳性率TPR、伪阳性率FPR F1-score2TP/(2*TPFPFN) 最大响应分…...

go语言(十一)----面向对象继承
一、面向对象继承 写一个父类 package mainimport "fmt"type Human struct {name stringsex string }func (this *Human) Eat() {fmt.Println("Human.Eat()...") }func (this *Human) Walk() {fmt.Println("Human.Walk()...") }func main() {h…...

一款自动化提权工具
免责声明 请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,作者不为此承担任何责任。工具来自网络,安全性自测,如有侵权请联系删除。…...

【Qt】最详细教程,如何从零配置Qt Android安卓环境
这里写自定义目录标题 安装Qt Creator & Qt安装下载&安装JDK设置Android SDKAndroid模拟器下载创建android设备(模拟器) Gradle安装问题解决无法打开安卓模拟器Build失败方案一:不适用Qt自带SDK管理器(失败)方…...

spring与spring boot的区别
spring与spring boot的区别 项目配置: Spring: 在Spring中,项目的配置通常需要在XML文件中进行,包括配置数据源、事务管理、AOP等。这需要开发人员手动配置很多细节。 <!-- 在Spring中使用XML配置数据源 --> <bean id…...

http网络编程——在ue5中实现文件传输功能
http网络编程在ue5中实现 需求:在unreal中实现下载功能,输入相关url网址,本地文件夹存入相应文件。 一、代码示例 1.Build.cs需要新增Http模块,样例如下。 PublicDependencyModuleNames.AddRange(new string[] { "Core&q…...

JVM之java内存区域[2](堆、方法区、直接内存)
文章目录 版权声明一 堆1.1 java堆1.2 模拟堆区的溢出1.3 arthas中堆内存相关的功能1.4 设置大小 二 方法区2.1 方法区简介2.2 补充:字符串常量池和运行时常量池2.3 方法区的大小设计2.4 arthas中查看方法区2.5 模拟方法区的溢出2.7 StringTable的练习题 三 神奇的i…...

k8s-kubectl常用命令
一、基础命令 1.1 get 查询集群所有资源的详细信息,resource包括集群节点、运行的Pod、Deployment、Service等。 1.1.1 查询Pod kubectl get po -o wid 1.1.2 查询所有NameSpace kubectl get namespace 1.1.3 查询NameSpace下Pod kubectl get po --all-namespaces…...

如何在Docker上运行Redis
环境: 1.windows系统下的Docker deckstop 1.Pull Redis镜像 2.运行Redis镜像 此时,Redis已经启动,我们登录IDEA查看下是否连接上了 显示连接成功,证明已经连接上Docker上的Redis了...

【深度学习:集中偏差】减少计算机视觉数据集中偏差的 5 种方法
【深度学习:集中偏差】减少计算机视觉数据集中偏差的 5 种方法 有偏差的计算机视觉数据集会导致哪些问题?如何减少计算机视觉数据集中偏差的示例观察并监控带注释样本的类别分布确保数据集代表模型适用的人群明确定义对象分类、标记和注释的流程为标签质…...

java数据结构与算法刷题-----LeetCode667. 优美的排列 II
java数据结构与算法刷题目录(剑指Offer、LeetCode、ACM)-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/123063846 解题思路 题目要求我们返回一个数组长度为n的数组,必须含有1~n…...

win10 20h2 defender添加排除项失败怎么回事 Window Defender添加不了排除项如何处理
我们都知道win10系统中是内置有Windows Defender安全防护软件的,会自动对电脑中的所有文件进行扫描,但是有用户可能某些文件不希望被扫描,那么我们可以添加排除项,可是有不少win10 20h2用户在defender添加排除项的时候却失败了&am…...

mysql生成最近24小时整点时间临时表
文章目录 生成最近24小时整点生成最近30天生成最近12个月 生成最近24小时整点 SELECT-- 每向下推1行, i比上次减去1b.*, i.*,DATE_FORMAT( DATE_SUB( NOW(), INTERVAL ( -( i : i - 1 ) ) HOUR ), %Y-%m-%d %H:00 ) AS time FROM-- 目的是生成12行数据( SELECTa FROM( SELECT…...

基于PHP反序列化练习
PHP创建一个以自己姓名命名的类,要求存在两个属性,name,age,进行序列化,输出序列化以后的数据。 <!-- PHP创建一个以自己姓名命名的类,要求存在两个属性,name,age --> <?…...

ITSS、ITIL、ISO20000:哪个更适合你?
在IT服务管理领域,ITSS、ITIL和ISO20000是备受关注的三大标准。它们在性质、设立组织、目的和适用对象等方面各有千秋。那么,如何在这三大标准中选择最适合自己的呢?下面,让我们一起揭开它们的神秘面纱! 1️⃣ 性质&am…...

Linux配置yum源以及基本yum指令
文章目录 一、yum介绍二、什么是软件包三、配置yum源四、一键配置yum源【三步走】五、yum指令搜索软件安装软件卸载软件 六、其他yum指令更新内核更新软件更新指定软件显示所有可更新的软件清单卸载指定包并自动移除依赖包删除软件包,以及软件包数据和配置文件 一、…...

【AI视野·今日Robot 机器人论文速览 第七十五期】Thu, 11 Jan 2024
AI视野今日CS.Robotics 机器人学论文速览 Thu, 11 Jan 2024 Totally 16 papers 👉上期速览✈更多精彩请移步主页 Daily Robotics Papers Analytical Model and Experimental Testing of the SoftFoot: an Adaptive Robot Foot for Walking over Obstacles and Irre…...

阿里云ECS(CentOS镜像)安装docker
目录 1.前置条件 2.连接至ECS 3.yum软件包更新 4.安装docker前置所需软件包 5.添加docker 官方的 yum 软件源 6.安装docker 7.检测是否成功 8.配置阿里云镜像加速器 1.前置条件 在看本文前保证未安装过docker,或者安装过但是清理干净 如果多次安装失败过,…...

服务器工作环境要求
在开展网站服务之前,合适的服务器工作环境是必不可少的。服务器工作环境指需要一定的软硬件条件来保障服务器可以正常地运转和提供高效率的服务。在这篇文章中,我们将会详细讲解服务器工作环境所需的要素。 一、硬件要求 服务器硬件方面包括了基本的电…...

大数据开发之Spark(入门)
第 1 章:Spark概述 1.1 什么是spark 回顾:hadoop主要解决,海量数据的存储和海量数据的分析计算。 spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 1.2 hadoop与spark历史 hadoop的yarn框架比spark框架诞生的晚ÿ…...

【GoLang入门教程】Go语言工程结构详述
程序员裁员潮:技术变革下的职业危机 文章目录 程序员裁员潮:技术变革下的职业危机前言总结:专栏集锦强烈推荐写在最后 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网…...

FPGA之分布式RAM(2)
1) 128 X1 Single Port Distributed RAM 下图中可以看出来,通过2个LUT的组合使用可以串联实现更大深度的分布式RAM.下图中出现了F7BMUX的加入, F7BMUX可以用于LUT输出的选通. 原语调用: RAM128XIS#(INIT(128h00000000000000000000000000000000) // Initial conten…...

纯c实现栈和队列 数据结构大全
栈 栈是一种后进先出的数据结构,可以用数组来模拟实现,掌握必要的数据结构是非常的有必要的 一样是先打出头文件 #pragma once#include <stdio.h> #include <stdlib.h> #include <string.h> #include <stdbool.h> #include &…...

测试开发基础 | 计算机网络篇(二):物理层与数据链路层
【摘要】 计算机网络知识是自动化测试等技术基础,也是测试面试必考题目。霍格沃兹测试学院特别策划了本系列文章,将带大家一步步夯实计算机网络的基础知识。由于物理层知识在互联网软件研发工作中用到的并不多,所以可以仅做一个简单的了解。物…...

【深度学习】BasicSR训练过程记录,如何使用BasicSR训练GAN
文章目录 两种灵活的使用场景项目结构概览简化的使用方式 项目结构解读1. 代码的入口和训练的准备工作2. data和model的创建2.1 dataloader创建2.2 model的创建 3. 训练过程 动态实例化的历史演进1. If-else判断2. 动态实例化3. REGISTER注册机制 REGISTER注册机制的实现1. DAT…...

喜讯 | 华院计算摘得“2023大数据产业年度创新技术突破”奖
2024年1月17日, 由数据猿和上海大数据联盟主办,上海市经济和信息化委员会、上海市科学技术委员会指导的“第六届金猿季&魔方论坛——大数据产业发展论坛”在上海市四行仓库举行。论坛以“小趋势大未来”为主题,围绕大数据产业的各个领域展…...

stm32高级定时器死区时间
为什么要有死区时间 高级控制定时器(TIM1和TIM8)能够输出两路互补信号,并且能够管理输出的瞬时关断和接通。这段时间通常被称为死区,用户应该根据连接的输出器件和它们的特性(电平转换的延时、电源开关的延时等)来调整死区时间。 死区发生器 在生成的参…...

Python项目——久坐提醒定时器(PySide6)编写
1、介绍 使用Python编写一个久坐提醒软件。功能: 设置工作时间。设置休息时间。选择休息时是否播放音乐。休息时,软件置顶,且不能关闭。 2、工具 语言:python3.11UI设计工具:Qt designer编译器:PyCharm包…...