2025.10.01

yabo亚博体育官方网站人形机器人跑酷！？我们研究了最新的类人生物的移动能力有多猛烈

A通过学习实现“跨越、跨越”

这里我们说“跳上平台”和“跨越间隙”跑酷技巧是通过学习获得的，而不依赖于样本动作。

人形跑酷学习 (2024)

论文：arXiv
官方页面：人形跑酷学习
运动：多种跑酷技能（跳跃、越过障碍物、越过间隙、楼梯等）单一端到端视觉政策正在做。这里政策是一个“根据传感器信息采取行动的功能模型”。
技术要点：常规来自“样本运动”，如 AMP/ASE风格提升并将其与任务奖励相结合。这里没有任何进展（不需要样本）仅限任务奖励学习的政策被采纳，视觉（深度相机等）和本体感觉来确定操作（关节角度和惯性信息）。似乎有意对地点和障碍物的变化做出广泛的反应。

B仿效

这里“您跟踪样本运动的能力如何”的流程。教育部（专家混合：多个“专家”网络的切换）和扩散模型（逐渐从噪声中恢复信号的生成模型），跳跃/旋转/侧手翻实机中展示了越来越多的例子。

超越模仿 (2025)

论文：arXiv
官方页面：beyondmimicgithubio
运动：跳跃旋转、车轮、冲刺等高动态真机上的高品质跟随并进一步测试期间的成本(现场给出的目标分数)以任务为导向，零射击
技术要点：常规AMP 模仿风格奖励。这里扩散模型通过合并（扩散：顺序恢复类型生成模型）作为“运动表示”并将其与 RL（强化学习）结合使用参考轨迹的表现力这是一种提高标准的新口味。

机器人舞动 (2025)

纸：arXiv
官方页面：纸质页面上的实验视频。
运动：长舞序列（包括跳跃/旋转/侧手翻）零镜头模拟到真实在Unitree G1中显示了扩展示例这里模拟到真实就是“将通过模拟学到的策略转移到实际机器上”。
技术要点：常规实际机器的故障是由于“模拟和真实机器之间的动力学差异”造成的，并且博士（域随机化：随机选择环境）系统ID吸收它（系统识别：参数识别）。这里剩余 (Δ) 输出在现场错位在线更正关键点是通过考虑向现有命令“添加一点”来避免失败。

功夫机器人 (2025)

纸：arXiv
官方页面：kungfu-botgithubio
运动：比如功夫或快舞高动态仿Unitree G1实机
技术要点：常规时，遵循“确切的例子”，非物理轨迹往往会混合在一起。这里SMPL（蒙皮多人线性：3D人体形状/姿势模型。在CG/AR中流行）从视频中估计姿势，物理过滤器修复非物理部件等IK（反向运动学：反向运动学）重新定位以匹配机器人关节自适应跟踪这是根据误差调整跟踪容差的配置。

GMT（通用运动跟踪）(2025)

论文：arXiv
官方页面：gmt-humanoidgithubio
运动：单一政策实机
技术要点：以前，在许多配置中，您必须为每个动作学习单独的策略，或者努力使用单个 MLP，这两种配置都往往会达到其极限。运动教育部（切换多个“专家”）和自适应采样根据难度平衡学习，操作空间大合二为一。

UniTracker (2025)

纸：arXiv
官方页面：yinkangning0124githubio
运动：超过 8,000 本书的各种动作都跟随一个单一的网络，Unitree G1实机还提出了。
技术要点：常规时，在部分观察（传感器限制）期间姿势往往会“丢失”。这里特权观摩老师→CVAE学生→快速适应的三阶段立场。CVAE（条件变分自动编码器：条件 VAE）潜在变量编制各种轨道，具有补充缺失观测值的作用。

ExBody / ExBody2 (2025)

官方页面：DeepWiki
运动：长舞和富有表现力的上半身动作不折叠它显示了它是如何遵循的。
技术要点：常规有很多“全身严密跟踪为一体”，容易造成实机震动、故障。这里是上半身关键点跟踪，下半身速度追踪分为蒸馏（知识从教师→学生转移）是转移到实际机器的配置。按角色划分稳定

C着陆和平衡（狭窄空间等）

让“跳跃”发生“落地后不倒塌”在这里很重要终极姿势是啊细光束

HuB（学习极限人形平衡）（2025）

论文：arXiv
官方页面：hub-robotgithubio
运动：握住一条腿15m级高踢腿姿势等准静态极限平衡
技术要点：常规容易受到外部干扰（传感器噪声、未建模动态）的影响，并且往往受到模仿和 PID 系统调整的限制。这里参考动作的细化+平衡导向的学习+稳健的训练集成静态/半静态稳定范围的扩展

BeamDojo (2025)

纸：arXiv
官方页面：为什么618188githubio
运动：像平衡木稀疏脚手架在高精度安装和步行实机激光雷达捕获地形的配置（激光测距仪）也被引入。
技术要点：传统步行学习的设计假设地面很宽，脚底很宽点近似在许多情况下，横梁很容易出现故障。这里多边形鞋底掉落奖励是啊两步学习(易→难)＋激光雷达海拔图被突出显示。

窄路径穿越（02 m 宽 x 3 m 光束）(2025)

论文：arXiv
官方页面：huangtc233githubio
运动：Unitree G1实机在宽度 02 m，长度 3 m的横梁的demo。
技术要点：常规是 LIPM、ZMP 等模板行走单独或反之亦然净 RL，学习一切的两个极端很突出。这里XCoM/LIPM 模板（步行近似模型）剩余 RL(小修正学习)两级配置在提高性能，同时保持安全裕度已做出妥协。

D。从模拟到真机（sim2real）

以下是通过学习获得的技能在真机上运行的基础

尽快（协调模拟和现实世界物理）(2025)

论文：arXiv
官方页面：NVIDIA 研究页面
摘要：向 Sim 学习敏捷全身技能实机。在 GitHub 上数据收集/Δ行动学习的代码和演示已整理。
技术要点：常规主要是提前“厚”准备好DR和SysID，以缩小实机侧的差距。尽快是Δ（微分）动作模型在动态差异学习修正并在“改进的模拟器”上设置政策重新学习核心是。事实证明，它对于敏捷技能来说是有效的。

利用 RL 实现真实世界的人形运动 (2024)

论文：arXiv
摘要：因果变压器（因果变换器：从历史序列生成下一个动作的模型），完整的学习基础的步行是在真机上显示的。
技术要点：常规的步行设计通常非常重视手工制作的步态模板和外部状态估计。这里利用历史信息的系列模型的特点就是它稳定，不严重依赖模板。

学习人形机器人在具有挑战性的地形上的运动（2024 年）

纸：arXiv
摘要：没有视力（仅限本体感觉)荒地步行穿过变压器学到的例子
技术要点：常规的崎岖地形行走通常依赖于对外界的详细感知和对立足点的估计，而这往往很难建立。这里序列模型 + 强化学习在外界不确定的情况但是，我们倾向于采取不会崩溃的政策。

E。成为转折点的研究（模仿+RL经典）

最后，我想介绍一篇重要的论文，它有点老了，但可能影响了许多最新的方法。首先，在查看新内容时应牢记三件事。

AMP（对抗性运动先验）(2021)

纸：xbpenggithubio
官方页面：YouTube
运动：跑/跳/翻滚风格奖励”与任务奖励一起使用这是它们在保持“相似性”的同时如何移动的汇编。
技术要点：常规以“顺序跟踪”（遵循样本本身的轨迹）为中心。 AMP 是对抗性学习学习“相似度”作为分布，解决任务这也是理解01的“无先验知识的任务学习”和02的“提前生成模型”的基础。

ASE（对抗性技能嵌入）(2022)

论文：NVIDIA 研究页面
官方页面：GitHub
运动：来自大规模运动可重复使用的技能嵌入较低技能→较高任务的流程已经组织起来了。
技术要点：常规像DeepMimic一样“单独学习个人技能”倾向很强，很难横向扩展。日月光是通用技能表达快速适应新任务的想法单个政策的不同行为(07/08) 兼容。

DeepMimic (2018)

官方页面：GitHub
运动：空翻/旋转仿品＋RL中一致再现物理的“起源”
技术要点：常规（2010 年代初）有许多手工控制器和详细的最优控制方法，这使得泛化成为一个挑战。 DeepMimic 是模仿奖励+任务奖励运动质量和互动行为的兼容性（例如朝指定方向行走）并导致了 AMP/ASE 的后续谱系。

结论

怎么样？

如果你这样把它们放在一起看，我认为它们都不是做出华而不实的研究，而是每个都有自己独特的技术和解决问题的方法。

集团研发总部AI研发办公室正在招聘数据科学家/机器学习工程师。如果您对AI研发办公室，比如大数据分析工作感兴趣，请联系我们。职位空缺列表申请我们期待您的申请。

集团研发总部的最新信息正在 Twitter 上发布。请关注我们。

关注@GMO_RD

yabo亚博体育官方网站人形机器人跑酷！？我们研究了最新的类人生物的移动能力有多猛烈

最新机器人会跳！舞蹈！

A通过学习实现“跨越、跨越”

人形跑酷学习 (2024)

B仿效

超越模仿 (2025)

机器人舞动 (2025)

功夫机器人 (2025)

GMT（通用运动跟踪）(2025)

UniTracker (2025)

ExBody / ExBody2 (2025)

C着陆和平衡（狭窄空间等）

HuB（学习极限人形平衡）（2025）

BeamDojo (2025)

窄路径穿越（02 m 宽 x 3 m 光束）(2025)

D。从模拟到真机（sim2real）

尽快（协调模拟和现实世界物理）(2025)

利用 RL 实现真实世界的人形运动 (2024)

学习人形机器人在具有挑战性的地形上的运动（2024 年）

E。成为转折点的研究（模仿+RL经典）

AMP（对抗性运动先验）(2021)

ASE（对抗性技能嵌入）(2022)

DeepMimic (2018)

结论

相关文章

Reformer：一种自然语言处理模型，是 Transformer 的改进版本，可以阅读整本小说

ChatGPT 演变历史 - 从 GPT-3 到 GPT-4 高级数据分析 -

由 CPU 驱动的轻量级模型和边缘 AI

我使用 ChatGPT 第 2 部分分析了替代经济指标

最新文章

招聘信息

实习

采访

yabo亚博体育官方网站 人形机器人跑酷！ ？我们研究了最新的类人生物的移动能力有多猛烈

最新机器人会跳！舞蹈！

A通过学习实现“跨越、跨越”

人形跑酷学习 (2024)

B仿效

超越模仿 (2025)

机器人舞动 (2025)

功夫机器人 (2025)

GMT（通用运动跟踪）(2025)

UniTracker (2025)

ExBody / ExBody2 (2025)

C着陆和平衡（狭窄空间等）

HuB（学习极限人形平衡）（2025）

BeamDojo (2025)

窄路径穿越（02 m 宽 x 3 m 光束）(2025)

D。从模拟到真机（sim2real）

尽快（协调模拟和现实世界物理）(2025)

利用 RL 实现真实世界的人形运动 (2024)

学习人形机器人在具有挑战性的地形上的运动（2024 年）

E。成为转折点的研究（模仿+RL经典）

AMP（对抗性运动先验）(2021)

ASE（对抗性技能嵌入）(2022)

DeepMimic (2018)

结论

相关文章

Reformer：一种自然语言处理模型，是 Transformer 的改进版本，可以阅读整本小说

ChatGPT 演变历史 - 从 GPT-3 到 GPT-4 高级数据分析 -

由 CPU 驱动的轻量级模型和边缘 AI

我使用 ChatGPT 第 2 部分分析了替代经济指标

标签

最新文章

招聘信息

实习

采访

yabo亚博体育官方网站人形机器人跑酷！？我们研究了最新的类人生物的移动能力有多猛烈