东莞网站建设主要学什么/百度搜索指数和资讯指数
18 位人形机器人充当「迎宾」人员,整齐划一向嘉宾挥手,这是 2024 世界人工智能大会上的一个震撼场景,让人们直观感受到了今年机器人的飞速发展。
图源:甲子光年
1954 年,世界上第一台可编程机器人「尤尼梅特」在通用汽车装配线正式投入工作,历经半个多世纪,机器人从笨重的工业巨擘一步步成长为更智能、更灵活的人类助手。其中,人工智能技术,尤其是自然语言处理与计算机视觉的突破性进展,为机器人的发展铺设了一条高速轨道,利用巨大计算能力和海量数据,通过行为克隆等简单的算法来训练通用机器人策略, 正逐步解锁未来机器人的无限潜能。
尤尼梅特机器人 图源:百度百科
然而,目前机器人学习管道大多针对某个特定任务训练,这让它们在新情境或执行不同任务时显得力不从心。 此外,机器人训练数据主要来自仿真模拟、人体演示及机器人遥操作场景,不同数据源间存在巨大的异构性, 一个机器学习模型也很难整合如此多来源的数据,训练机器人通用策略一直是一大难题。
针对此,麻省理工研究人员提出了一个机器人策略组合框架 PoCo (Policy Composition), 该框架使用扩散模型的概率合成,组合不同领域和模态的数据,为构建复杂的机器人策略组合开发了任务级、行为级、领域级的策略合成方法,能够解决机器人在工具使用任务中的数据异构性、任务多样性问题。相关研究已经以「PoCo: Policy Composition from and for Heterogeneous Robot Learning」为题,发表在 arXiv 上。
研究亮点:
-
无需重新训练,PoCo 框架可以灵活组合不同领域数据训练的策略
-
在仿真模拟和真实世界中,PoCo 的工具使用任务都取得优异表现,与单个领域训练的方法相比,PoCo 对不同环境中的任务表现出高度泛化能力
论文地址:
https://arxiv.org/abs/2402.02511
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
三大数据集来源,涵盖人 & 机数据、真实 & 仿真数据等领域
本研究所涉及的数据集主要来自人类演示视频数据、真实机器人数据、仿真模拟数据。
人类演示视频数据集
人类演示视频可以从野外未校准的摄像机中收集,共收集多达 200 条轨迹。
数据集处理流程,未校准的RGB-D摄像机在野外采集的人类演示视频可以转换为标记的轨迹
真实机器人数据集
通过安装的手腕摄像头和头顶摄像头获取场景的局部、全局视图,用 GelSight Svelte Hand 采集工具姿势、工具形状、工具与对象接触时的触觉信息,每个任务收集 50-100 个轨迹演示。
仿真模拟数据集
模拟数据集遵循 Fleet-Tools,其中专家演示通过关键点轨迹优化生成,共收集大约 5 万个模拟数据点。在后续训练过程中,研究人员对点云数据和动作数据都进行了数据增强 (data augmentation),并保存固定的模拟场景以供测试使用。
此外,研究人员在来自深度图像 (depth images) 和遮罩 (masks) 中的 512 个工具和 512 个物体点云中,加入逐点噪声 (point-wise noises)、随机裁剪 (random dropping) 等,以提升模型的鲁棒性。
通过概率分布乘积形式进行策略组合
在策略组合中,研究人员给定两个概率分布编码的轨迹信息 pDM(⋅∣c,T)、pD′M′(⋅∣c′,T′),推理时在乘积分布中采样直接结合这两个概率分布的信息。
其中,pproduct 在同时满足两个概率分布的所有轨迹上表现出高似然性, 可有效编码两种分布的信息。
策略组合 PoCo
研究人员提出的 PoCo,将跨行为、任务、通道和领域的信息组合在一起, 无需重新训练,在预测时以模块方式组合信息,通过利用多个领域的信息即可实现对工具使用任务的泛化。
策略组合图解
假设每个模型的扩散输出在相同的空间,即动作维度和动作时域相同。在测试时,PoCo 结合梯度预测 (gradient predictions) 进行组合。这种方法可以应用于不同领域策略的组合,例如组合使用图像、点云和触觉图像等不同模态数据训练的策略。也可以用于不同任务的策略组合,以及通过行为组合为所需行为提供额外成本函数 (additional cost functions)。
对此,研究人员提供了任务级组合 (Task-level Composition)、行为级组合 (Behavior-level Composition)、领域级组合 (Domain-level Composition) 这 3 个示例,以此说明 PoCo 如何提高策略性能。
任务级组合 Task-level Composition
任务级组合在可能完成任务 T 的轨迹上增加了额外权重,可提高合成轨迹的最终质量,不需要为每个任务单独训练,而是训练一个能够实现多任务目标的通用策略。
行为级组合 Behavior-level Composition
这种组合可以结合任务分布和成本目标 (cost objective) 的信息,确保合成的轨迹既能完成任务,又能优化指定的成本目标。
领域级组合 Domain-level Composition
这种组合可以利用来自不同传感器模态、领域捕获的信息,对单独领域收集的数据互补非常有用。 例如,当真实机器人数据收集成本高但准确度更高,模拟演示数据收集成本较低但准确度低,可以对同一领域不同模式的数据进行特征串联 (feature concatenation) 以简化处理。
可视化工具使用任务,评估 3 大策略组合
可视化工具使用任务
在训练时,研究人员采用具有去噪扩散概率模型 (DDPM) 的时间 U-Net 结构,并进行 100 步训练;测试时,采用去噪扩散隐式模型 (DDIM),进行 32 步测试。为了在不同领域 D 和任务 T 之间组合不同的扩散模型,研究人员对所有模型使用相同的动作空间,并对机器人的动作边界做了固定的归一化处理。
研究人员通过机器人对通用工具(扳手、锤子、铲子和扳手)的使用任务来评估提出的 PoCo,当达到特定阈值时,任务被确定为成功,例如,当销钉被敲入时,锤击任务被认为成功。
行为级组合可以改善期望的行为目标
研究人员使用 test-time 推理来组合诸如平滑度和工作空间约束等行为,合成权重被固定为 γc=0.1。
行为组合效应。通过概率地结合成本 (costs),可以优化每个成本目标的指标
如上表所示,test-time 行为级组合可以改善期望的行为目标,如平滑度和工作空间约束。
任务级组合在多任务策略评估中最优
当任务权重 α=0 时,任务级组合策略映射到无条件多任务策略 (unconditioned multitask policies),当 α=1 时,映射到标准任务条件策略 (task-conditioned policies),当 0 < α < 1 时,研究人员在任务条件、任务无条件策略 (task unconditional policies) 之间进行插值 (interpolating)。当 α > 1 时,可以得到更加与任务条件相关的轨迹。
在模拟的多任务策略评估中,任务级组合的表现最好
据上图表明,相对于无条件、特定任务条件性的多任务工具使用扩散策略,条件性、无条件多任务工具使用策略的任务组合更优。
人类+模拟数据,领域级组合性能更优
研究人员使用模拟数据集 θsim、人类数据集 θhuman 和机器人数据集 θrobot 训练单独的策略模型,并在仿真模拟设置中评估领域级组合。
用模拟策略帮助跨领域组合及模拟评估
由于 θsim 不存在训练/测试领域差距,表现良好,可达到 92% 成功率。在人类数据等领域中,研究人员将它与性能更好的策略 θsim 进行组合,显著提高了性能。
策略组合性能超过单独组成部分,通用性更强
研究人员将 PoCo 用于机器人工具使用任务中,组合不同领域和任务的数据,进而提高其泛化能力。4 项任务分别是:用扳手拧螺丝,用锤子敲击钉子,用铲子将煎饼从锅中铲起,用刀切开橡皮泥。
通过组合在仿真模拟、人类和真实数据中训练的策略,可以在跨多个干扰物(第1行)、不同物体和工具姿态(第2行),以及新的物体和工具实例(第3行)之间进行泛化
领域组合的定量结果。与单独成分策略相比,策略组合显著提高任务平均成功率
如上表所示,虽然人类 (Human) 数据训练的策略和真实机器人 (Real-Robot) 训练的策略在不同的场景下表现不佳 (与 Simulation 比较),但它们的组合 (Human+Real) 可以超过每个单独的组成部分。
不同工具使用任务的策略表现,在工具使用任务中,任务组合策略总体性能提升
通过现实世界,研究人员评估机器人在 4 个不同工具使用任务上的策略表现,发现在工具使用任务中,任务组合策略性能提升更佳。 如上表所示,多任务策略与 Tspatula 和 Thammer 为条件的特定任务相比,性能几乎一致,它们都在 fine action 中表现出一定的稳定性。此外,组合超参数需要保持在一个范围内才能有效且稳定。
通用性的最佳条件,人形机器人强势崛起
通用机器人在过去两年得到了蓬勃发展,但一个有意思的现象是,目前行业似乎更认同以人形的方式来推动通用机器人的发展。为什么通用机器人一定要是人形? 五源资本董事总经理陈哲对此表示,「因为只有人形机器人才可能在人类的生活环境中适应不同交互场景!」既然机器人要帮人类干活,以人形外在来模仿人类学习,这显然是最佳的。
作为行业的指向标,早在 2022 年 9 月,特斯拉就发布了通用人型机器人 Optimus,虽然起初连路都走不稳,但它具备完整的人型机器人原型,满足人类能做的灵巧工作基础,在特斯拉软硬件技术的持续迭代下,Optimus 将具备更令人期待的功能,事实证明确实如此。
在 2024 世界人工智能大会上,特斯拉向大家展示了其人形机器人 Optimus 的最新研究进展:直立行走速度提高 30%、十个手指也进化出感知和触觉,能轻握易碎的鸡蛋、也能平稳地搬运沉重箱子。据了解,Optimus 已在特斯拉工厂尝试实际应用,比如借助视觉神经网络和 FSD 芯片,模仿人类操作进行电池的分拣训练,预计明年将有超过 1,000 个人形机器人在特斯拉工厂帮助人类完成生产任务。
同样地,作为一家成立于 2015 年的行业领先通用机器人公司,上海傅利叶智能科技有限公司也将其人形机器人 GR-1 带到了大会现场。自 2023 年推出至今,GR-1 已率先实现量产交付,在环境感知、仿真模型、运动控制优化等方面实现进阶升级。
此外,在今年 3 月份,英伟达在年度 GTC 开发者大会上,也推出了名为 GR00T 的人形机器人项目,通过观察人类行为来理解自然语言和模仿动作,机器人可以快速学习协调性、灵活性和其他技能,以导航、适应、与现实世界互动。
随着科技的不断进步,我们有理由相信,人形机器人或将成为连接人与机器、现实与未来的桥梁,引领我们进入一个更加智能、美好的社会。
参考资料:
https://m.163.com/dy/article/J69LAFDR0512MLBG.html
https://36kr.com/p/1987021834257154
https://hub.baai.ac.cn/view/211
相关文章:

通用机器人里程碑!MIT提出策略组合框架PoCo,解决数据源异构难题,实现机器人多任务灵活执行
18 位人形机器人充当「迎宾」人员,整齐划一向嘉宾挥手,这是 2024 世界人工智能大会上的一个震撼场景,让人们直观感受到了今年机器人的飞速发展。 图源:甲子光年 1954 年,世界上第一台可编程机器人「尤尼梅特」在通用汽…...

基于Java中的SSM框架实现疫情冷链追溯系统项目【项目源码+论文说明】
基于Java中的SSM框架实现疫情冷链追溯系统演示 摘要 近几年随着城镇化发展和居民消费水平的不断提升,人们对健康生活方式的追求意识逐渐加强,生鲜食品逐渐受到大众青睐,诸如盒马鲜生、7-fresh等品牌生鲜超市,一时间如雨后春笋般迅…...

想在vue中预览doxc,excel,pdf文件? vue-office提供包支持
在浩瀚的Vue生态中,vue-office犹如一颗璀璨的星辰,以其独特的魅力照亮了开发者处理多种文件格式的预览之路。这款精心打造的Vue组件库,不仅拥抱了Vue2的经典,也紧密跟随Vue3的步伐,展现了卓越的技术前瞻性和兼容性。它…...

PostgreSQL16安装Mac(brew)
问题 最近需要从MySQL切换到PostgreSQL。我得在本地准备一个PostgreSQL。 步骤 使用brew安装postgresql16: arch -arm64 brew install postgresql16启动postgresql16: brew services start postgresql16配置postgresql环境变量,打开环境变量文件: …...

【语音识别算法】深度学习语音识别算法与传统语音识别算法的区别、对比及联系
深度学习语音识别算法与传统语音识别算法在理论基础、实现方式、性能表现等方面存在显著区别,同时也有一些联系。下面将从几个方面详细比较这两种方法,并给出应用实例和代码示例。 一、理论基础与实现方式 1.传统语音识别算法: 特征提取&a…...

图片批量重命名bat,一个脚本快速搞定图片批量重命名
BAT 批处理 是一种在 Microsoft Windows 操作系统中使用的脚本语言,用于自动执行一系列预定义的命令或任务。这些命令集合通常存储在一个文本文件中,文件扩展名为 .bat 或 .cmd。批处理脚本可以包含简单的命令,如文件复制、移动、删除&#x…...

基于stm32单片机的智能手环的设计
摘 要 随着科技的飞速发展和人们生活水平的提高,健康与科技日益融合,智能可穿戴设备已成为现代人生活中不可或缺的一部分。智能手环,作为一种便携、实用且功能丰富的可穿戴设备,受到越来越多用户的喜爱。它不仅能够实时监测用户的…...

雷池WAF动态防护功能初体验
一、 介绍 大名鼎鼎的雷池WAF最近新上了个名为 动态防护 的功能 所谓动态防护,是在用户浏览到的网页内容不变的情况下,将网页赋予动态特性,即使是静态页面,也会具有动态的随机性。 说白了就是给你网站的 html 和 js 代码加上加密…...

持安科技CEO何艺荣获中国信通院2023-2024年度标准卓越贡献奖
近日,由中国信息通信研究院、中国通信标准化协会承办的“全球数字经济大会—云和软件安全论坛”暨“2024第二届SecGo云和软件安全大会”胜利召开,零信任办公安全技术创新企业持安科技创始人兼CEO何艺获评为2023-2024年度零信任领域标准卓越贡献者。 由中…...

gitee上传和下载idea项目的流程
环境:idea2022 一、上传项目 1、在gitee中新建一个仓库。 2、打开所要上传的项目的文件夹,点击Git Bash,生成.git文件夹。 3、在idea中打开所要上传的项目,在控制台的Terminal菜单中,输入git add . (注意…...

【Numpy】np.loadtxt 读取单行数据时报错。(零维数组)
np.loadtxt 读取单行数据时遇到了报错 代码: import numpy as nplabelPath"./name.names" names np.loadtxt(labelPath, dtypestr)print(names[0])names中的数据: 报错: IndexError: too many indices for array: array is 0-…...

Unity之OpenXR+XR Interaction Toolkit实现 Gaze眼部追踪
使用 Unity OpenXR 实现Gaze眼部追踪 在虚拟现实(VR)和增强现实(AR)应用中,眼动追踪是一项强大而受欢迎的技术。它可以让开发者更好地理解用户的注意力和行为,并创造出更加沉浸和智能的体验。在本文中,我们将探讨如何使用 Unity OpenXR 实现Gaze眼部追踪功能。 Unity …...

自然语言处理(NLP)与大语言模型(LLM) 主要差异
一、简述 NLP 和 LLM 技术是大规模分析和生成人类语言的核心。随着它们的日益普及,区分 LLM 与 NLP 变得越来越重要。 NLP 包含一套用于理解、操纵和生成人类语言的算法。自 20 世纪 50 年代诞生以来,NLP 已发展到分析文本关系的阶段。它使用词性标注、命…...

智能车载防窒息系统设计
摘要 随着汽车行业的快速发展,车辆安全问题越来越受到人们的关注。其中,车载防窒息系统是一项重要的安全设备。本论文基于STM32单片机,设计了一种智能车载防窒息系统。该系统主要包括氧气浓度检测模块、温湿度检测模块、声音检测模块、光线检…...

硅纪元视角 | 电信公司出招!AI机器人全面反击AI诈骗电话
在数字化浪潮的推动下,人工智能(AI)正成为塑造未来的关键力量。硅纪元视角栏目紧跟AI科技的最新发展,捕捉行业动态;提供深入的新闻解读,助您洞悉技术背后的逻辑;汇聚行业专家的见解,…...

Java爬虫翻页
编写一个Java爬虫以进行翻页通常涉及到使用HTTP客户端(如Apache HttpClient或OkHttp)来发送请求,解析HTML页面(如使用Jsoup库),以及处理分页逻辑(如通过URL参数或页面内的链接进行翻页ÿ…...

.net6 当连接用户的shell断掉后,dotnet会自动关闭,达不到长期运行的效果。.NET 进程守护
1、/etc/systemd/system/ 目录下创建service文件 如:/etc/systemd/system/testDemoSer.service 2、文件内容示例: [Unit] DescriptiontestDemoSer running on CentOS [Service] WorkingDirectory/usr/project/iis Typesimple Userroot Grouproot Exec…...

02 源码编译构建LAMP
目录 2.1Apache 网站服务基础 2.1.1Apache 简介 1. Apache 的起源 2. Apache的主要特点 2.1.2安装httpd服务器 1. 准备工作 2.源码编译及安装 (1)解包 (2)配置 (3)编译及安装 3.确认安装结果 4.优化执行路径 5. 添加 httpd 系统服务 2.2 httpd服务器的基本配置 …...

【Axure视频教程】页面滚动距离函数
今天教大家在Axure里如何使用页面滚动距离函数,我们会先学习该函数的基础,然后通过滚动到指定位置后显示对应元件位案例来学习怎么应该这个函数。具体效果可以打开下方试看版视频观看。 注:函数教程主要是讲解函数的用法,不包含案例中元件的制…...

【Linux】:程序替换
朋友们、伙计们,我们又见面了,本期来给大家解读一下有关Linux程序替换的相关知识点,如果看完之后对你有一定的启发,那么请留下你的三连,祝大家心想事成! C 语 言 专 栏:C语言:从入门…...

使用ResizeObserver观察DOM元素的尺寸变化
文章目录 关于ResizeObserver示例代码示例代码结果如下所示echarts自适应容器div大小示例代码结果如下所示echarts自适应容器大小的方式二 关于ResizeObserver 关于这个Web API,可以看mdn的官网,ResizeObserver - Web API | MDN (mozilla.org)ÿ…...

前端使用Vue和Element实现可拖动弹框效果,且不影响底层元素操作(可拖拽的视频实时播放弹框,底层元素可以正常操作)
简述:在前端开发中,弹框和实时视频播放是常见的需求。这里来简单记录一下,如何使用Vue.js和Element UI实现一个可拖动的弹框,并在其中播放实时视频。同时,确保在拖拽弹框时,底层元素仍然可以操作。 一、项目…...

文华财经多空K变色支撑压力画线趋势波段指标公式
文华财经多空K变色支撑压力画线趋势波段指标公式: VERTLINE(TIME0900,RGB(128,128,255)),DOT; VERTLINE(TIME2100,COLORBLACK),DOT; HH:HHV(HIGH,26); LL:LLV(LOW,26); HH1:BARSLAST((HH > REF(HH,1))); LL1:BARSLAST((LL < REF(LL,1))); PARTLINE((HH…...

tomcat9漏洞CVE-2024-23672
序号 漏洞名称 影响主机个数 1 Apache Tomcat 安全漏洞(CVE-2024-23672) 1/1 2 Apache Tomcat 输入验证错误漏洞(CVE-2024-24549) 1/1 漏洞名称:CVE-2024-23672 影响版本:tomcat9.0.0-M1 to 9.0.85;tomcat8.5.0 to 8.5.98 处理…...

ChatGLM-6B入门
ChatGLM-6B ChatGLM-6B 一、介绍 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最…...

项目实战--Spring Boot + GraphQL实现实时数据推送
背景 用户体验不断提升而3对实时数据的需求日益增长,传统的数据获取方式无法满足实时数据的即时性和个性化需求。 GraphQL作为新兴的API查询语言,提供更加灵活、高效的数据获取方案。结合Spring Boot作为后端框架,利用GraphQL实现实时数据推…...

ASPICE是汽车软件开发中的质量保证流程
复杂的汽车系统对软件的质量和可靠性提出了极高的要求。为了确保汽车软件的高质量和可靠性,ASPICE(Automotive SPICE,汽车软件过程改进和能力确定)流程应运而生。本文将对ASPICE流程进行详细介绍。 一、ASPICE概述 ASPICE是汽车行…...

Linux调试器-gdb使用以及Linux项目自动化构建工具-make/Makefile
目录 1.gdb背景2.开始使用gdb3.make/makefile 背景4.实例代码5.依赖关系6.依赖方法7.原理8.项目清理 1.gdb背景 程序的发布方式有两种,debug模式和release模式 Linux gcc/g出来的二进制程序,默认是release模式 要使用gdb调试,必须在源代码生…...

Html5前端基本知识整理与回顾下篇
今天我们继续结合发布的Html5基础知识点文档进行复习,希望对大家有所帮助。 目录 列表 无需列表 有序列表 自定义列表 样例 表格 基本属性 编辑 相关属性 Border Width Height 编辑 表格标题 编辑 表格单元头 合并单元格 垂直单元格合并 水…...

vmware 虚拟机扩容 centos 硬盘扩容 kylinos v10扩容
1. 虚拟机先扩容 1.1 关机,并点击系统,让他是点选状态,但是没开机 1.2 右击,点击最下方设置,点击硬盘 1.3 点击扩展磁盘 1.4 选择你需要扩容的大小,数字为总大小 完成提示: 磁盘已成功扩展。您…...