LaST-R1:机器人具身大模型的R1时刻——先推理再行动
Type: article
Author: 新智元
Primary Topic: AI Agent
Ingested: 2026-05-12
Summary
LaST-R1提出了「观测→隐空间物理推理→行动」的新范式,通过LAPO算法将latent reasoning纳入强化学习优化闭环,使机器人不仅优化动作,也优化动作前的物理推理过程。在LIBERO基准上仅用1条轨迹warm-up即达到99.9%成功率,真机任务用30条轨迹将成功率从52.5%提升至93.75%,超越使用100条专家轨迹的π0.5。该工作由至简动力、香港中文大学和北京大学联合完成,基座模型LaST₀已被ICML 2026选为Spotlight论文。
Key Concepts
- 具身智能
- 隐空间物理推理
- 强化学习后训练
- Latent CoT
- 先推理再行动
- LAPO算法
- 机器人操作泛化
Entities
- LaST-R1
- LAPO
- π0.5
- 至简动力
- 香港中文大学
- 北京大学
- LIBERO
- LaST₀
- ICML 2026
Source
Relations
- (none)
Auto-generated on 2026-05-12