LaST-R1：机器人具身大模型的R1时刻——先推理再行动

Type: article
Author: 新智元
Primary Topic: AI Agent
Ingested: 2026-05-12

Summary

LaST-R1提出了「观测→隐空间物理推理→行动」的新范式，通过LAPO算法将latent reasoning纳入强化学习优化闭环，使机器人不仅优化动作，也优化动作前的物理推理过程。在LIBERO基准上仅用1条轨迹warm-up即达到99.9%成功率，真机任务用30条轨迹将成功率从52.5%提升至93.75%，超越使用100条专家轨迹的π0.5。该工作由至简动力、香港中文大学和北京大学联合完成，基座模型LaST₀已被ICML 2026选为Spotlight论文。

Key Concepts

具身智能
隐空间物理推理
强化学习后训练
Latent CoT
先推理再行动
LAPO算法
机器人操作泛化

Entities

LaST-R1
LAPO
π0.5
至简动力
香港中文大学
北京大学
LIBERO
LaST₀
ICML 2026

Source

Raw: last-r1-robot-embodied-model-reasoning-before-action.md

Relations

(none)

Auto-generated on 2026-05-12