Embodied AI 论文积累

感觉做 Survey 的时候负责的部分并不是我感兴趣的方向,所以看起来如果想得到一些 Idea,还得重新开始积累 VLA 相关的文章。

另一方面,感觉中学的时候写博客的习惯挺好的,上大学之后没有好好坚持,主要也是没找到很好的“把大学课程转化为博客”的方式。

所以准备重启一下,一方面记录一下自己读过一些什么,另一方面也让自己能有机会思考一下。

Actions as Language: Fine-Tuning VLMs into VLAs Without Catastrophic Forgetting

link

Introduction

在把 VLM finetune 成 VLA 的时候,会导致 catastrophic forgetting,即模型会忘记之前 VLM 的一些知识。

文章提出 VLM2VLA,一种将 low-level 的 action 表示为 natural language 的方法,把 VLA 的数据和之前 VLM 的数据 align 了一下,从而在训练的时候可以使用 LoRA(LoRA 依靠 finetune 数据和 pretrain 的数据差距不大),避免 catastrophic forgetting.

Method

文章把一个数据处理成三层:

  • High-Level Subtask Prediction:就是把任务变成 subtasks
  • Mid-Level Motion Planning:对每个 subtask,用文字描述怎么 motion
  • Low-Level Action Generation:自回归地生成 action chunk

直接用 Gemini 处理生成。

他们想说,因为把 finetune 数据和 pretrain 数据的 gap 变小了,所以 LoRA 就能训动了,然后他们直接在 Gemma-3-12B-IT 上训了。

Experiment

主要测了一下 finetune 完之后在 VQA 数据集上的表现,以及一些 ID、OOD 任务的表现。

迷思

感觉应该把故事讲成,我们可以用 LoRA 把 VLM 变成 VLA,而且不会忘记之前的知识。

文章里说推理一步要花 6s,并且这个方法进一步加长了自回归生成文本长度。虽然说可以涨点,但我感觉这不像是最后能 work 的路线,毕竟对机器人来说,推理效率还是很重要的。

ICLR 2026 获得了 2668 的分数,感觉很神奇,为什么居然能拿 8。