当前位置：首页 > news >正文

运动重定向：C-3PO

news 2026/2/8 12:21:10

C-3PO: Cyclic-Three-Phase Optimization for Human-Robot Motion Retargeting based on Reinforcement Learning解析

摘要
1. 简介
2. 相关工作
- 2.1 运动重定向（Motion Retargeting）
- 2.2 强化学习（Reinforcement Learning）
3. 预备知识
- 3.1 深度强化学习
- 3.2 Source Dataset
- 3.3 数据预处理
4. 方法
- 4.1 问题表述
- 4.2 阶段1：学习潜在的Manifold
- 4.3 阶段2:学习映射功能
- 4.4 阶段3:通过微调进行策略优化
- 4.5 n-Step Monte-Carlo Learning

论文链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9196948&tag=1
论文代码：https://github.com/gd-goblin/C-3PO_Motion_Retargeting_Module
论文出处：2020 ICRA
论文单位：Korea University of Science and Technology，韩国

摘要

在不同尺寸和运动学构型的同质多形体之间进行运动重定位需要全面的(逆)运动学知识。
此外，提供一个与运动无关的通解是困难的。
在本研究中，我们开发了一种基于深度强化学习的人-机器人运动重定向**循环三阶段（cyclic three-phase）**优化方法。
该方法通过循环路径和滤波路径在潜在空间中使用精细数据进行运动重定向学习。
此外，基于人在环的三阶段方法从定量和定性两方面为改进运动重定向策略提供了一个框架。
利用所提出的C-3PO方法，我们成功地学习了NAO、Pepper、Baxter和C-3PO等多个机器人在人体骨骼和运动之间的运动重定向技能。

1. 简介

人类可以毫不费力地模仿不同体型的人甚至动物的动作。
这是因为人类具有非凡的运动重定向技能，从视觉信息中掌握目标的运动属性，并将其与自己的关节适当地连接起来。
运动重定向技术对人类来说并不困难，但对机器人来说却是一项具有挑战性的任务，因为它需要复杂的算法来理解运动属性、正确映射源和目标之间的关系以及处理特殊情况。
虽然有一些局限性，但已经提出了几种方法来教机器人的运动重定向。
例如，直接关节映射和基于逆运动学(IK)求解器的方法需要机器人运动学专业知识，并且由于它们的运动学构型不同，难以推广。它们还存在奇异位置问题和高IK计算成本的问题。
最近基于学习的方法从视觉传感器，动作捕捉(MoCap)和虚拟现实(VR)设备收集的演示中学习模仿技能。然而，基于视觉的采样(如人体骨骼)是非常嘈杂和不稳定的。MoCap和VR方法需要额外的成本，并且不方便佩戴。
直接教学(Direct teaching，DT) 直观地生成各种机器人动作，因为用户可以通过自己的手自由配置机器人的姿势。然而，由于与硬件的物理交互和相关的教学时间，它在收集大量演示时存在局限性。
在我们之前的工作中，我们设计了一个基于 actor-critic 的简单网络架构，仅使用骨架编码器和基于已知架构机器人的运动解码器。然而，critic 网络的输入不足以评估 actor 的质量，因为它应该基于编码的骨架，而不是完整的运动学配置。此外，编码骨架直接反映了原始输入骨架的严重噪声。
在本文中，为了克服这些限制，我们提出了一种先进的方法来改进我们在之前的工作开发的三相框架（three-phase framework），用于学习鲁棒的人机运动重定向技能。
在改进的框架中，我们引入了新的滤波和循环路径结构来处理有噪声的输入，并以更丰富的状态信息更好地评估参与者。
在强化学习中，广泛使用的时间差分(TD)方法在马尔可夫环境下有效地工作。如果机器人任务处于马尔可夫环境中，机器人代理的状态不仅应该包括角度位置，还应该包括角速度，以便从当前状态预测下一个状态。然而，低成本电机如Dynamixel可能无法提供准确的角速度，因为传感器误差和控制系统中的延迟。
因为我们的目标是建立一个可以应用于这种低成本系统的模型，我们将我们的运动重定向建模为一个非马尔可夫问题，其中智能体的状态只有位置信息而没有速度。我们尝试学习基于MonteCarlo (MC)方法的运动重定向策略，该方法在非马尔可夫环境下比TD方法更有效地工作。
我们的主要贡献可以概括如下:
（1）我们通过重用之前工作中忽略的网络提出了一种新的架构。
（2）基于新提出的循环路径和滤波路径，我们定义了扩展的潜在状态和改进的奖励函数。这比我们以前的工作显示出更高的性能。
（3）基于六个运动类的统一策略和编码器-解码器网络，我们证明了我们的模型可以在非马尔可夫环境下使用MC方法充分执行人机运动重定向。

2. 相关工作

运动重定向已经引起了包括机器人和计算机图形学在内的许多研究领域的极大关注。在本节中，我们回顾了运动重定向和强化学习的相关研究。

2.1 运动重定向（Motion Retargeting）

在机器人领域，对人体运动和类人机器人之间的运动重定向进行了大量的研究。
Behzad等人提出了一种基于约束IK求解器的在线运动重定向方法，该方法将深度传感器获取的人体运动信息传递给仿人机器人ASIMO。
Sen等人从深度传感器的3D点云中估计一个人的姿态，并将其姿态重新定位到一个没有任何骨骼和关节限制的类人机器人。
Ko等人提出了一种运动重定向方法，该方法同时解决了运动变形和运动优化的几何参数辨识问题。
利用动作捕捉传感器，基于 IK 求解器的从人到机器人的运动重定向方法近年来得到了广泛的研究。
尽管大多数运动重定向研究都使用了基于IK求解器的方法，但在本研究中，我们将深度强化学习(DRL) 应用于运动重定向，而不使用任何IK求解器。我们还利用微调方法在主学习后进行姿态校正。

2.2 强化学习（Reinforcement Learning）

近年来，强化学习(RL)已被用于各种研究领域，包括电脑游戏、机器人和动画，并且优于以前的方法。
机器人领域的许多研究将强化学习用于特定任务，如投球、拾取和放置、基于视觉的机器人抓取、机器人导航以及日常生活中的其他机器人任务。
在我们的学习模型中，我们采用了参考运动和基于变分自编码器(VAE) 网络架构的PPO算法。

3. 预备知识

3.1 深度强化学习

我们将运动重定向建模为一个infinite-horizon discounted partially observable Markov decision process (POMDP)的元组：M = {S，O，A，T，r，γ，S}。
状态空间S，部分观测空间O，动作空间A，状态转移概率函数T，奖励函数r：S × A >R，折现因子γ ∈ (0;1]，初始状态分布S。
智能体的目标是学习一个确定性策略π：O >A 在无限范围内最大化预期折现奖励

其中返回值定义如下
我们采用基于PPO的 actor-critic算法来学习 w for the actor and ζ for the critic network。
critic network 评估政策的行动价值。
我们定义了一个Q函数，它描述了在策略 π 下的期望收益，参数为 ζ，从动作 a_t 在状态s_t，如下所示

3.2 Source Dataset

为了学习人机运动重定向技能，我们使用了公共人体运动数据集NTU-DB。
在60个运动类别中，选择12个运动类别，排除了shake head 等6个运动类别，因为仅使用骨架无法识别这些运动。最终确定的6个动作类别是：{fcheer up,hand waving, pointing with finger, wipe face, salute, and put the palms togetherg}，如图2所示：
我们还排除了噪声严重的数据，将90%的数据用于训练，剩余的10%用于评估(表1)。

3.3 数据预处理

NTU-DB的骨架数据以相机坐标给出，而机器人数据以躯干坐标给出。
由于第二阶段的奖励是使用方向向量相似度来计算的，因此骨骼和机器人之间的坐标对齐过程是必不可少的。
为了正确对齐，我们做了以下假设。至少在选定的运动类中:
（1）腰部不存在弯曲的姿势。
（2）因此，肩膀、躯干和骨盆在骨骼中的中心关节是共面的。
（3）从左肩关节到右肩关节的向量总是平行于地面。
基于这些假设，我们分两步执行坐标对齐：
（1）关于(w.r.t)骨架躯干框架的归一化
（2）转动 w.r.t 机器人基架。
第一步，每个骨架关节位置通过减去所有骨骼关节的躯干位置而归一化.
第二步，我们首先需要为机器人躯干框架创建一个相同的局部坐标。
我们可以计算出 anterior axis 通过 u’，获得 cranial vector 通过 w。
从归一化的局部坐标系坐标系出发，建立方向余弦矩阵(DCM)，利用DCM转置变换相机坐标系下的骨架，该矩阵与机器人基坐标系矩阵 I 相同

4. 方法

在本节中，我们将详细描述我们的 three-phase framework，包括过滤和循环路径。同时，介绍了n-step MC 及其公式。

4.1 问题表述

骨架生成函数 f^s 取人体姿态 Dt 在时刻 t 的图像，生成与输入人体姿态对应的骨架向量 x^s_t = f^s(Dt)，其中原始骨架数据包含所有关节的 x、y、z 位置 x^s_t = {x1,y1,z1,…,x25,y25,z25}。
然后，骨架编码器 ρ^s 从原始骨架数据中获取转换后的骨架 x^s_t’’ (Eq.(5))，并生成一个七维潜在表示 z^s_t = ρ^s(x^s_t’')。
骨架潜在向量 z^s_t 可以被骨架解码器 β^s 解码，以便以后用于骨架重建和潜在表征学习。
同理，机器人运动 x^rj_t = {θ1;θ2;···;θ14} 由关节角(rad)在时刻 t 定义，由机器人运动编码器 ρ^r 编码为 z^r_t = ρ^r(x^rj_t)。
机器人运动的潜在向量 z^r_t 也可以被机器人运动解码器 解码，以便将来用于机器人运动重建和潜在表征学习。
我们的映射策略 π^w 通过在潜在表示骨架 z^s_t 和机器人运动 z^r_t 之间进行映射来执行运动重定向，z^r_t = π^w(z^s_t)。

4.2 阶段1：学习潜在的Manifold

在第一阶段，我们使用VAE学习骨架和机器人运动的 latent manifold(图4)。
在第一阶段，使用NTU-DB和机器人参考运动训练骨架和机器人运动的latent manifold。
骨架编码器 ρ^s 由具有ReLU的 512、256、128、64 四个全连通(FC)层组成，将变换后的骨架x^s_t’’ 编码在 7 维潜在向量 z^s_t 中。
骨架解码器具有与编码器相同的结构，但顺序相反。
我们通过一次学习所有六个运动类数据创建了一个统一的骨架编码器-解码器。
为了学习机器人运动编解码器，我们需要为每个类采样一组参考机器人运动轨迹。
机器人运动网络由三个具有Tanh的FC层组成，其中编码层为256、128、64，潜在表示层为7，解码器层相同但顺序相反。
MSE损失用于骨架和机器人运动网络。

4.3 阶段2:学习映射功能

在第二阶段，我们学习了基于模拟器和奖励函数的适当运动重定向的映射策略 πξ。
评价网络πζ基于这个包含骨架和机器人在时刻t运动信息的完整状态来评价agent的动作值。

4.4 阶段3:通过微调进行策略优化

尽管该策略在阶段1中通过参考运动学习到的潜在流形之间执行映射，但由于阶段2的奖励不考虑头部或手腕的姿势，因此可能会发生错误的重定向。
在最后阶段，我们尝试使用基于 DT（直接学习）的微调来纠正这种错误的重定向。

4.5 n-Step Monte-Carlo Learning

一般来说，MC方法具有无偏、高方差估计，而TD方法具有偏和低方差估计。这是因为MC经验地用实际回报更新策略，而TD通过使用自举(bootstrapping)的推理来估计预期回报。
MC通常在情景环境中工作，然而，它可以应用于我们的动作重定向，因为我们将问题建模为非情景任务，并且可以在每个时间框架中获得奖励。

运动重定向：C-3PO

C-3PO: Cyclic-Three-Phase Optimization for Human-Robot Motion Retargeting based on Reinforcement Learning解析摘要1. 简介2. 相关工作2.1 运动重定向（Motion Retargeting）2.2 强化学习（Reinforcement Learning） 3. 预备知…...

编程日记 2023/12/10 18:58:05

天池SQL训练营(四)-集合运算-表的加减法和join等

-天池龙珠计划SQL训练营 4.1表的加减法 4.1.1 什么是集合运算集合在数学领域表示“各种各样的事物的总和”, 在数据库领域表示记录的集合. 具体来说,表、视图和查询的执行结果都是记录的集合, 其中的元素为表或者查询结果中的每一行。在标准 SQL 中, 分别对检索结果使用 U…...

编程日记 2023/12/10 18:56:02

thinkphp lists todo

来由： 数据库的这个字段我想返回成： 新奇的写法如下： 逻辑层的代码： public function goodsDetail($goodId){$detail $this->good->where(id, $goodId)->hidden([type_params,user_id])->find();if (!$detail) {ret…...

编程日记 2023/12/10 18:55:01

【Flutter】创建应用顶级组件，应用根组件 (学习记录)

前言在 Flutter 中，应用的顶级组件或根组件通常是在 main() 函数中通过 runApp() 方法创建的。这个组件通常是一个 MaterialApp、CupertinoApp、GetMaterialApp 或其他类似的应用框架组件。以下是一个创建 MaterialApp 作为根组件的示例： void main()…...

编程日记 2023/12/10 18:54:00

AI材料专题报告：AI革命催生新需求国产替代推动新方向

今天分享的AI系列深度研究报告：《AI材料专题报告：AI革命催生新需求国产替代推动新方向》。 （报告出品方：光大证券） 报告共计：25页 1、算力需求增长催生 800G 光模块需求算力是数字经济时代新生产力&…...

编程日记 2023/12/10 18:50:58

JVM 分析GC日志

GC日志参数 -verbose:gc 输出gc日志信息，默认输出到标准输出 -XX:PrintGC 输出GC日志。类似：-verbose:gc -XX:PrintGCDetails 在发生垃圾回收时打印内存回收详细的日志，并在进程退出时输出当前内存各区域分配情况 -XX:PrintGCTimeStam…...

编程日记 2023/12/10 18:49:56

阿里云服务器环境配置，ssh免密登录和配置docker

此文章适合ubuntu20.04 64位和ubuntu22.04 64位版本一.登陆服务器租完服务器后，首选需要使用本地gitbash或者cmd进入服务器， 命令： ssh rootxxx xxx为服务器公网ip，然后yes，然后输入密码就会进入自己的服务器&am…...

编程日记 2023/12/10 18:47:53

【LeetCode】2621. 睡眠函数

睡眠函数 Promise异步题目题解题目请你编写一个异步函数，它接收一个正整数参数 millis ，并休眠 millis 毫秒。要求此函数可以解析任何值。示例 1： 输入：millis 100 输出：100 解释： 在 100ms 后此异步…...

编程日记 2023/12/10 18:46:51

网络入门---TCP通信实现

目录标题前言准备工作 tcpserver.hpp构造函数初始化函数(listen)运行函数(accept) tcpserver.cctcpclient.hpp构造函数初始化函数运行函数(connect) tcpclient.cc问题测试改进一：多进程改进二：多线程改进三：线程池完整代码前言在前面的文…...

编程日记 2023/12/10 18:41:47

neuq-acm预备队训练week 8 P2661 [NOIP2015 提高组] 信息传递

题目背景 NOIP2015 Day1T2 题目描述有 n 个同学（编号为 1 到n）正在玩一个信息传递的游戏。在游戏里每人都有一个固定的信息传递对象，其中，编号为 i 的同学的信息传递对象是编号为 Ti 的同学。游戏开始时，每人都…...

编程日记 2023/12/10 18:34:40

《C++新经典设计模式》之第18章备忘录模式

《C新经典设计模式》之第18章备忘录模式备忘录模式.cpp 备忘录模式.cpp #include <iostream> #include <vector> #include <memory> using namespace std;// 保存对象内部状态，必要时恢复 // 在不破坏封装性的前提下，捕获对象的内部…...

编程日记 2023/12/10 18:33:39

OWASP安全练习靶场juice shop-更新中

Juice Shop是用Node.js，Express和Angular编写的。这是第一个完全用 JavaScript 编写的应用程序，列在 OWASP VWA 目录中。该应用程序包含大量不同的黑客挑战用户应该利用底层的困难漏洞。黑客攻击进度在记分板上跟踪。找到这个记分牌实际上是&#…...

编程日记 2023/12/10 18:30:37

当使用RSA加密，从手机前端到服务器后端的请求数据存在+

将转成了空格，导致解密出错将空格转成了...

编程日记 2023/12/10 18:29:36

BUUCTF crypto做题记录（3）新手向

目录一、Rabbit 二、篱笆墙的影子三、丢失的MD5 四、Alice与Bob 一、Rabbit 得到的密文：U2FsdGVkX1/ydnDPowGbjjJXhZxm2MP2AgI 依旧是看不懂是什么编码，上网搜索，在侧栏发现Rabbit解码，直接搜索就能有在线解码网站二、篱笆…...

编程日记 2023/12/10 18:28:35

一、第一个程序 1.1环境配置略 1.2代码实现 package com.itheima.controller;import org.springframework.stereotype.Controller; import org.springframework.web.bind.annotation.RequestMapping; import org.springframework.web.bind.annotation.ResponseBody;//定义…...

编程日记 2023/12/10 18:27:34

matlab 最小二乘拟合空间直线（方法二）

目录一、算法原理1、算法过程2、参考文献二、代码实现三、结果展示四、相关链接本文由CSDN点云侠原创，原文链接。如果你不是在点云侠的博客中看到该文章，那么此处便是不要脸的爬虫与GPT。一、算法原理...

编程日记 2023/12/10 18:25:32

ASPICE-汽车软件开发能力评级

Automotive SPICE（简称A-SPICE 或 ASPICE），全称是“Automotive Software Process Improvement and Capacity dEtermination”，即“汽车软件过程改进及能力评定”模型框架。常被用于评估一家汽车软件供应商的软件开发能力&#x…...

编程日记 2023/12/10 18:24:31

准确！！！在 CentOS 8 上配置 PostgreSQL 14 的主从复制

在 CentOS 8 上配置 PostgreSQL 14 的主从复制，并设置 WAL 归档到特定路径 /home/postgres/archive 的步骤如下： 主服务器配置（主机） 配置 PostgreSQL： 编辑 postgresql.conf 文件： vim /data/postgres/p…...

编程日记 2023/12/10 18:21:27

leetcode 1466

leetcode 1466 使用dfs 遍历图结构如图 node 4 -> node 0 -> node 1 因为节点数是n, 边长数量是n-1。所以如果是从0出发的路线，都需要修改，反之，如果是通向0的节点，例如节点4，则把节点4当作父节点的节点&…...

编程日记 2023/12/10 18:19:24

想学编程，但不知道从哪里学起，应该怎么办？

怎样学习任何一种编程语言我将教你怎样学习任何一种你将来可能要学习的编程语言。本书的章节是基于我和很多程序员学习编程的经历组织的，下面是我通常遵循的流程。 1．找到关于这种编程语言的书或介绍性读物。 2．通读这本书，把…...

编程日记 2023/12/10 18:18:24

反向工程与模型迁移：打造未来商品详情API的可持续创新体系

在电商行业蓬勃发展的当下，商品详情API作为连接电商平台与开发者、商家及用户的关键纽带，其重要性日益凸显。传统商品详情API主要聚焦于商品基本信息（如名称、价格、库存等）的获取与展示，已难以满足市场对个性化、智能…...

编程新知 2025/9/15 5:56:53

为什么需要建设工程项目管理？工程项目管理有哪些亮点功能？

在建筑行业，项目管理的重要性不言而喻。随着工程规模的扩大、技术复杂度的提升，传统的管理模式已经难以满足现代工程的需求。过去，许多企业依赖手工记录、口头沟通和分散的信息管理，导致效率低下、成本失控、风险频发。例如&#…...

编程新知 2026/2/4 12:35:34

2.Vue编写一个app

1.src中重要的组成 1.1main.ts // 引入createApp用于创建应用 import { createApp } from "vue"; // 引用App根组件 import App from ./App.vue;createApp(App).mount(#app)1.2 App.vue 其中要写三种标签 <template>  </template>…...

编程新知 2026/1/31 6:04:01

页面渲染流程与性能优化

页面渲染流程与性能优化详解（完整版） 一、现代浏览器渲染流程（详细说明） 1. 构建DOM树浏览器接收到HTML文档后，会逐步解析并构建DOM（Document Object Model）树。具体过程如下： (…...

编程新知 2026/1/31 11:58:35

【Zephyr 系列 10】实战项目：打造一个蓝牙传感器终端 + 网关系统（完整架构与全栈实现）

🧠关键词：Zephyr、BLE、终端、网关、广播、连接、传感器、数据采集、低功耗、系统集成 📌目标读者：希望基于 Zephyr 构建 BLE 系统架构、实现终端与网关协作、具备产品交付能力的开发者 📊篇幅字数：约 5200 字 ✨ 项目总览在物联网实际项目中，**“终端 + 网关”**是…...

编程新知 2026/1/31 6:12:22

QT： `long long` 类型转换为 `QString` 2025.6.5

在 Qt 中，将 long long 类型转换为 QString 可以通过以下两种常用方法实现： 方法 1：使用 QString::number() 直接调用 QString 的静态方法 number()，将数值转换为字符串： long long value 1234567890123456789LL; …...

编程新知 2026/2/1 6:30:04

项目部署到Linux上时遇到的错误（Redis，MySQL，无法正确连接，地址占用问题）

Redis无法正确连接在运行jar包时出现了这样的错误查询得知问题核心在于Redis连接失败，具体原因是客户端发送了密码认证请求，但Redis服务器未设置密码 1.为Redis设置密码（匹配客户端配置） 步骤： 1）.修…...

编程新知 2026/2/6 1:29:28

服务器--宝塔命令

一、宝塔面板安装命令 ⚠️ 必须使用 root 用户或 sudo 权限执行！ sudo su - 1. CentOS 系统： yum install -y wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh && sh install.sh2. Ubuntu / Debian 系统…...

编程新知 2025/10/3 10:56:48

Aspose.PDF 限制绕过方案：Java 字节码技术实战分享（仅供学习）

Aspose.PDF 限制绕过方案：Java 字节码技术实战分享（仅供学习） 一、Aspose.PDF 简介二、说明（⚠️仅供学习与研究使用）三、技术流程总览四、准备工作1. 下载 Jar 包2. Maven 项目依赖配置五、字节码修改实现代码&#…...

编程新知 2026/2/6 22:13:44

mac 安装homebrew (nvm 及git)

mac 安装nvm 及git 万恶之源 mac 安装这些东西离不开Xcode。及homebrew 一、先说安装git步骤通用： 方法一：使用 Homebrew 安装 Git（推荐） 步骤如下：打开终端（Terminal.app） 1.安装 Homebrew…...

编程新知 2026/1/30 4:58:21