HumanUP: Learning Getting-Up Policies for Real-World Humanoid Robots

主旨:如何通过强化学习(RL)和仿真到现实(Sim-to-Real)的方法,为人形机器人开发能够从不同跌倒姿势和不同地形中自主起身的控制策略;

背景:人形机器人在实际应用中容易跌倒,而手动设计控制器来处理各种跌倒姿势和复杂地形非常困难。现有的控制器通常只能处理有限的跌倒情况,缺乏泛化能力。因此,论文提出了一种基于学习的框架,通过仿真训练生成能够在真实世界中应对多种跌倒姿势和地形的起身策略。目前的挑战有:

  • 非周期性行为:起身任务不像行走那样有固定的周期性接触模式,接触序列需要动态调整。
  • 丰富的接触:起身过程中,机器人不仅依靠脚部接触地面,还可能利用身体其他部位(如手臂、躯干)来施加力。
  • 稀疏奖励:起身任务的奖励信号较为稀疏,机器人需要在长时间内做出正确的动作才能获得奖励。

论文的解决方案 HumanUP

  • 第一阶段(Stage I):在仿真中发现一个有效的起身轨迹,不考虑动作的平滑性或速度/扭矩限制。这一阶段的目标是找到能够完成任务的轨迹,即使动作可能不够平滑或安全。

    under minimal constraints on smoothness or speed / torque limits

  • 第二阶段(Stage II):在第一阶段发现的轨迹基础上,训练一个 deployable 的策略,确保动作平滑、速度适中,并且能够适应不同的初始姿势和地形。

    Stage II is optimized to track the state trajectory discovered in the first stage to tackle easier motion tracking with dense tracking rewards, which is under strict Sim2Real control regularization for ensuring Sim2Real transfer. From Stage I to Stage II, we employ a Sim2Real learning curriculum that progresses from simplified → full collision mesh, canonical → random initial lying posture, and weak to strong control regularization and domain randomization. This two-stage approach integrates a hard-to-easy task-solving curriculum with an easy-to-hard Sim2Real curriculum, both of which are crucial for successful learning, as demonstrated in our experiments.

    第二阶段的优化目的是跟踪第一阶段发现的状态轨迹,以密集的跟踪奖励解决更容易的运动跟踪问题,这是在严格的 Sim2Real 控制正则化下进行的,以确保 Sim to Real 的效果。从第一阶段到第二阶段,我们采用 Sim2Real Learning,从简化→全碰撞网格、规范→随机初始卧姿、弱控制正则化和域随机化到强控制正则化。正如我们的实验所证明的那样,这种两阶段方法将由难变易的任务解决方案与由易变难的 Sim2Real 方案整合在一起,两者对于成功学习都至关重要。

实验操作:

  • 仿真和真实世界都使用 Unitree G1 平台;机器人自由度等信息请参见论文的 Page 5;
  • Isaac Gym for simulated training and evaluation.
  • 从 task success、smoothness、safety 几个方面打分、构造强化学习的奖励函数;

实验结果:

  • 仿真实验:HumanUP 能够在多种地形和初始姿势下成功完成起身任务,表现优于其他 baseline 方法;
  • 真实世界实验:HumanUP 能够在多种复杂地形(如草地、雪地、斜坡等)上成功起身,且成功率显著高于 G1 机器人自带的控制器。

不足:

  • It relies on high performance physics platforms like IsaacGym to simulate contact-rich tasks such as getting up and rolling over. 当前的仿真平台在接触动力学模拟上仍有不足,未来需要更精确的仿真工具;
  • 学习到的动作可能不够拟人化,未来可以通过引入人类动作捕捉数据来改进;

DexTrack: Towards Generalizable Neural Tracking Control for Dexterous Manipulation from Human References

主要目标是开发一种通用的神经跟踪控制器(neural tracking controller),用于灵巧手从人类参考中学习并进行复杂的物体操作。

背景目前的问题:当前的强化学习(RL)和轨迹优化(TO)方法通常依赖于任务特定的奖励或精确的系统模型,限制了其通用性和适应性;

他们大多需要对单独的任务进行针对性的设计,例如专门对某一种特定的任务设计对应的奖励函数,之后根据这样的奖励函数训练策略网络来解决对应的问题;

数据采集:两个公开的人类-物体交互数据集(GRAB 和 TACO)上进行实验,分别包含日常操作和功能性工具使用操作。

仿真:use the Allegro hand, with URDF adapted from Isaac Gym Envs

真实世界:LEAP hand

训练怎么表示任务?

  • 比如将物体转动一个角度,我们可以先规划出来物体的运动轨迹,之后将这个任务转化为跟踪物体运动轨迹的轨迹跟踪任务。
  • 在每个时刻,给定机器手和物体当前的状态,以及下一步想要达到的状态,轨迹跟踪控制器的任务是给出机器手当前应该执行的动作,从而通过执行该动作,机器手可以运动且和物体进行交互,使得机器手以及物体实际达到的状态与下一步想要达到的状态吻合。

训练的指标:包括物体旋转误差、物体平移误差、手腕位置和旋转误差、手指位置误差以及成功率;

训练 controller:强化学习 + 模仿学习。

  • RL 用于处理复杂的动态环境;

  • IL 则通过模仿高质量的机器人跟踪演示来提高控制器的性能(to distill successful, abundant, and diverse “tracking knowledge” into the tracking controller)。

    在 RL 训练的同时引入监督信号来降低 policy 学习的难度。通过交替地使用高质量的轨迹跟踪数据辅助通用轨迹跟踪控制器的学习,以及借助通用轨迹跟踪器来提高单一轨迹跟踪演示的质量;

优化算法(如何优化 “单一轨迹跟踪演示的质量”):

  • 借助通用轨迹跟踪器(之前 train 的)来初始化单一轨迹跟踪策略的学习;
  • 借助 homotopy optimization 的方式,通过解决一系列的优化任务来降低特定轨迹跟踪任务优化的难度;

baseline:与现有的模型无关方法(如 DGrasp 和 PPO)进行比较;

结果:DexTrack 在模拟和现实世界中的表现均优于基线方法,成功率提高了 10% 以上。特别是在处理复杂操作、薄物体和动态接触时表现出色。

DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping

实现 通用灵巧抓取(General Dexterous Grasping)!

论文设计了一个 VLA 框架,结合了预训练的视觉-语言模型(VLM)作为高层任务规划器(Planner),以及基于扩散模型(Diffusion-based Policy)的低层动作控制器(Controller)。

模仿学习 + pretrained VLMs

  • 高层规划器(Planner):使用预训练的视觉-语言模型(如 Qwen-VL-Chat)来解析用户指令,规划抓取任务,并为低层控制器提供监督信号。规划器能够处理多模态输入,执行视觉定位(Visual Grounding),并根据用户指令生成抓取任务的分解。
  • 低层控制器(Controller):基于扩散模型的动作控制器,负责生成闭环的动作序列。控制器通过分割模型(如 SAM 和 Cutie)获取目标物体的掩码(Mask),并使用预训练的视觉编码器(如 DINOv2)提取图像特征。这些特征与机器人本体感知状态(Proprioception)结合,通过扩散模型生成多步动作序列。

数据采集:为了训练 DexGraspVLA 的低层控制器,研究团队手动收集了2094 个成功的抓取演示数据,涵盖了36 种家庭用品,涉及不同的尺寸、重量、几何形状、纹理和材料。每个演示记录了机器人手腕和头部摄像头的图像、本体感知状态、物体掩码以及动作序列。

我好像没找到采集的具体方法?

训练:

  • 输入包括手腕摄像头图像、头部摄像头图像、机器人本体感知状态(如关节角度)以及目标物体的 Mask;
  • DINOv2 提取图像特征 + 机器人本体感知(7 个手臂关节角度 + 6 个手关节角度),输出的动作也是 13 元组;
  • 最小化预测动作与真实动作之间的差异来训练模型(binary reward,数学模型可以看懂);

结果:

  • 泛化能力强:DexGraspVLA 在数千种未见过的物体、光照和背景组合下的抓取成功率超过 90%,展示了其在“零样本”(Zero-Shot)环境中的强大泛化能力。
  • 与不使用视觉编码器的基线相比,DexGraspVLA 在单物体抓取任务中的成功率显著更高,证明了其在领域不变特征上进行模仿学习的有效性;
  • Planner 在复杂环境下的目标物体边界框预测准确率超过 99%,展示了其在视觉定位任务中的可靠性。

不足和展望:

  • First, due to the time limit, our training dataset does not encompass very small objects or extremely cluttered environments; performance on these more challenging cases could improve with dedicated data collection.(训练数据集中未包含非常小的物体或极度杂乱的环境);
  • Additionally, we have not yet explored functional grasping for subsequent object usage, which is a promising direction for future work.(未来的工作可以探索功能性抓取 (Functional Grasping) 以及更复杂的环境设置);

News & Papers