2025.10.01

yabo亚博体育官方网站 人形机器人跑酷! ?我们研究了最新的类人生物的移动能力有多猛烈

最新机器人会跳!舞蹈!

你好。我是集团研发总部人工智能研发室的硕士。

你见过人形机器人吗?

例如,在 Unitree这样的演示视频但是。 (请查看链接!)

当我看到这样的事情时,我感觉我所设想的未来越来越近了。
尤其是像这样的杂技动作,简直让人怀疑是CG。

然而,最近的研究表明,这种华丽的运动仅仅是开始。

近年来,类人动物研究变得非常活跃,世界各地都在以新的方式学习新的动作!并发表多篇论文。

因此,在这篇文章中,我们将简单介绍一下近年来人形动作学习的最新研究进展如何,以便您可以大致了解近年来人形动作学习的最新研究进展如何!

在本文中,以下内容5 个类别中单独解释在每个类别的开头,说明您正在查看的内容,然后列出一些有代表性的示例。

  • A通过学习实现“跨越、跨越”
    让我们进入所谓的跑酷式动作。政策(决定行为的函数)并看看你能跳多远并跨越间隙。

  • B仿效
    追踪是“跟随样本运动的控制”。扩散模型(以图像生成而闻名的概率生成模型)和教育部一项政策中广泛复制的流程。

  • C。着陆和平衡(狭窄空间等)
    机构就是“决定你的脚放在哪里”。我们将重点关注“失败可能致命”的情况下的稳定性,例如细梁或飞石。XCoM(重心进度指数)和剩余 RL(学习在现有控制器上添加一点)就会出现。

  • D。从模拟到真机(sim2real)
    sim2real意思是“将模拟学习带入实际机器”。Δ(增量)模型(弥合模拟与现实之间差异的校正模型)和域随机化(随机摇动环境以使其更加稳健)。

  • E。成为转折点的研究(模仿+RL经典)
    模仿学习(学习如何处理示例)和强化学习 (RL)的组合AMP对抗性运动先验:学习运动“相似性”的框架)和日月光对抗性技能嵌入:可重用的技能表达式)。


A通过学习实现“跨越、跨越”

这里我们说“跳上平台”和“跨越间隙”跑酷技巧是通过学习获得的,而不依赖于样本动作。

人形跑酷学习 (2024)

论文arXiv
官方页面人形跑酷学习
运动:多种跑酷技能(跳跃、越过障碍物、越过间隙、楼梯等)单一端到端视觉政策正在做。这里政策是一个“根据传感器信息采取行动的功能模型”。
技术要点常规来自“样本运动”,如 AMP/ASE风格提升并将其与任务奖励相结合。这里没有任何进展(不需要样本)仅限任务奖励学习的政策被采纳,视觉(深度相机等)和本体感觉来确定操作(关节角度和惯性信息)。似乎有意对地点和障碍物的变化做出广泛的反应。


B仿效

这里“您跟踪样本运动的能力如何”的流程。教育部(专家混合:多个“专家”网络的切换)和扩散模型(逐渐从噪声中恢复信号的生成模型),跳跃/旋转/侧手翻实机中展示了越来越多的例子。

超越模仿 (2025)

论文arXiv
官方页面beyondmimicgithubio
运动:跳跃旋转、车轮、冲刺等高动态真机上的高品质跟随并进一步测试期间的成本(现场给出的目标分数)以任务为导向,零射击
技术要点常规AMP 模仿风格奖励。这里扩散模型通过合并(扩散:顺序恢复类型生成模型)作为“运动表示”并将其与 RL(强化学习)结合使用参考轨迹的表现力这是一种提高标准的新口味。

机器人舞动 (2025)

arXiv
官方页面:纸质页面上的实验视频。
运动长舞序列(包括跳跃/旋转/侧手翻)零镜头模拟到真实Unitree G1中显示了扩展示例这里模拟到真实就是“将通过模拟学到的策略转移到实际机器上”。
技术要点常规实际机器的故障是由于“模拟和真实机器之间的动力学差异”造成的,并且博士(域随机化:随机选择环境)系统ID吸收它(系统识别:参数识别)。这里剩余 (Δ) 输出现场错位在线更正关键点是通过考虑向现有命令“添加一点”来避免失败。

功夫机器人 (2025)

arXiv
官方页面kungfu-botgithubio
运动:比如功夫或快舞高动态仿Unitree G1实机
技术要点常规时,遵循“确切的例子”,非物理轨迹往往会混合在一起。这里SMPL(蒙皮多人线性:3D人体形状/姿势模型。在CG/AR中流行)从视频中估计姿势,物理过滤器修复非物理部件等IK(反向运动学:反向运动学)重新定位以匹配机器人关节自适应跟踪这是根据误差调整跟踪容差的配置。

GMT(通用运动跟踪)(2025)

论文arXiv
官方页面gmt-humanoidgithubio
运动单一政策实机
技术要点:以前,在许多配置中,您必须为每个动作学习单独的策略,或者努力使用单个 MLP,这两种配置都往往会达到其极限。运动教育部(切换多个“专家”)和自适应采样根据难度平衡学习,操作空间大合二为一。

UniTracker (2025)

arXiv
官方页面yinkangning0124githubio
运动超过 8,000 本书的各种动作都跟随一个单一的网络,Unitree G1实机还提出了。
技术要点常规时,在部分观察(传感器限制)期间姿势往往会“丢失”。这里特权观摩老师→CVAE学生→快速适应的三阶段立场。CVAE(条件变分自动编码器:条件 VAE)潜在变量编制各种轨道,具有补充缺失观测值的作用。

ExBody / ExBody2 (2025)

官方页面DeepWiki
运动:长舞和富有表现力的上半身动作不折叠它显示了它是如何遵循的。
技术要点常规有很多“全身严密跟踪为一体”,容易造成实机震动、故障。这里是上半身关键点跟踪,下半身速度追踪分为蒸馏(知识从教师→学生转移)是转移到实际机器的配置。按角色划分稳定


C着陆和平衡(狭窄空间等)

让“跳跃”发生“落地后不倒塌”在这里很重要终极姿势是啊细光束

HuB(学习极限人形平衡)(2025)

论文arXiv
官方页面hub-robotgithubio
运动:握住一条腿15m级高踢腿姿势准静态极限平衡
技术要点常规容易受到外部干扰(传感器噪声、未建模动态)的影响,并且往往受到模仿和 PID 系统调整的限制。这里参考动作的细化+平衡导向的学习+稳健的训练集成静态/半静态稳定范围的扩展

BeamDojo (2025)

arXiv
官方页面为什么618188githubio
运动:像平衡木稀疏脚手架高精度安装和步行实机激光雷达捕获地形的配置(激光测距仪)也被引入。
技术要点:传统步行学习的设计假设地面很宽,脚底很宽点近似在许多情况下,横梁很容易出现故障。这里多边形鞋底掉落奖励是啊两步学习(易→难)+激光雷达海拔图被突出显示。

窄路径穿越(02 m 宽 x 3 m 光束)(2025)

论文arXiv
官方页面huangtc233githubio
运动Unitree G1实机宽度 02 m,长度 3 m的横梁的demo。
技术要点常规是 LIPM、ZMP 等模板行走单独或反之亦然净 RL,学习一切的两个极端很突出。这里XCoM/LIPM 模板(步行近似模型)剩余 RL(小修正学习)两级配置提高性能,同时保持安全裕度已做出妥协。


D。从模拟到真机(sim2real)

以下是通过学习获得的技能在真机上运行的基础

尽快(协调模拟和现实世界物理)(2025)

论文arXiv
官方页面NVIDIA 研究页面
摘要:向 Sim 学习敏捷全身技能实机。在 GitHub 上数据收集/Δ行动学习的代码和演示已整理。
技术要点常规主要是提前“厚”准备好DR和SysID,以缩小实机侧的差距。尽快是Δ(微分)动作模型动态差异学习修正并在“改进的模拟器”上设置政策重新学习核心是。事实证明,它对于敏捷技能来说是有效的。

利用 RL 实现真实世界的人形运动 (2024)

论文arXiv
摘要因果变压器(因果变换器:从历史序列生成下一个动作的模型),完整的学习基础的步行是在真机上显示的。
技术要点常规的步行设计通常非常重视手工制作的步态模板和外部状态估计。这里利用历史信息的系列模型的特点就是它稳定,不严重依赖模板。

学习人形机器人在具有挑战性的地形上的运动(2024 年)

arXiv
摘要:没有视力(仅限本体感觉)荒地步行穿过变压器学到的例子
技术要点常规的崎岖地形行走通常依赖于对外界的详细感知和对立足点的估计,而这往往很难建立。这里序列模型 + 强化学习外界不确定的情况但是,我们倾向于采取不会崩溃的政策。


E。成为转折点的研究(模仿+RL经典)

最后,我想介绍一篇重要的论文,它有点老了,但可能影响了许多最新的方法。首先,在查看新内容时应牢记三件事。

AMP(对抗性运动先验)(2021)

xbpenggithubio
官方页面YouTube
运动跑/跳/翻滚风格奖励与任务奖励一起使用这是它们在保持“相似性”的同时如何移动的汇编。
技术要点常规以“顺序跟踪”(遵循样本本身的轨迹)为中心。 AMP 是对抗性学习学习“相似度”作为分布,解决任务这也是理解01的“无先验知识的任务学习”和02的“提前生成模型”的基础。

ASE(对抗性技能嵌入)(2022)

论文NVIDIA 研究页面
官方页面GitHub
运动:来自大规模运动可重复使用的技能嵌入较低技能→较高任务的流程已经组织起来了。
技术要点常规像DeepMimic一样“单独学习个人技能”倾向很强,很难横向扩展。日月光是通用技能表达快速适应新任务的想法单个政策的不同行为(07/08) 兼容。

DeepMimic (2018)

官方页面GitHub
运动空翻/旋转仿品+RL中一致再现物理的“起源”
技术要点常规(2010 年代初)有许多手工控制器和详细的最优控制方法,这使得泛化成为一个挑战。 DeepMimic 是模仿奖励+任务奖励运动质量互动行为的兼容性(例如朝指定方向行走)并导致了 AMP/ASE 的后续谱系。


结论

怎么样?

如果你这样把它们放在一起看,我认为它们都不是做出华而不实的研究,而是每个都有自己独特的技术和解决问题的方法。

集团研发总部AI研发办公室正在招聘数据科学家/机器学习工程师。如果您对AI研发办公室,比如大数据分析工作感兴趣,请联系我们。职位空缺列表申请我们期待您的申请。

  • 推特
  • 脸书
  • 添加到 Hatena 书签

集团研发总部的最新信息正在 Twitter 上发布。请关注我们。

 
  • 人工智能研发办公室
  • 大阪研究开发集团

相关文章