AffordanceVLA:用可供性做中间表征,解决VLA「看见了却动不准」问题

Type: paper
Author: 北京大学/HKUST-GZ/CUHK/Knowin AI
Primary Topic: AI Agent
Ingested: 2026-06-10

Summary

AffordanceVLA论文提出用「可供性」作为VLA模型的中间表征层,解决视觉语言模型语义空间与动作控制空间之间的对齐鸿沟。架构采用三阶段Mixture-of-Transformer流水线,包含Which2Act、Where2Act、How2Act三个专家模块,分别负责目标定位、2D可供性图生成和3D几何推理。该方案提升了机器人动作的可解释性,并对边缘硬件部署友好。

Key Concepts

Entities

Source

Relations


Auto-generated on 2026-06-10