VoxPoser论文综述

2023-07-12

LLMs编写代码的能力可以让他们控制机器人的行动

这篇论文的标题是”VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models”，作者是来自Stanford University和University of Illinois Urbana-Champaign的Fei-Fei Li研究团队。

这是一篇对具身人工智能（Embodied AI）方向的实践。具身人工智能的目标是创建机器人等代理，它们能够学习创造性地解决需要与环境交互的挑战性任务。这些代理可以通过看、交谈、聆听、行动、推理在现实世界中完成多种的任务。

[2]

VoxPoser的运作过程图

VoxPoser是一个将多个终端连接起来的系统，它使用大型语言模型（LLMs，例如GPT）的自然语言交互能力，将人类自然语言转化为计算机可以理解的条件性动作原语句和约束条件。这些经过转化的语义信息可以生成合规的Python代码，这些代码可以指导视觉语言模型（VLMs）在传感器所获得的信息（RGB-D环境观测）下构造出三维价值地图（3D Value Map = 可供性地图+约束图），把外部知识映射到机器人的观察空间中。使用这个地图，机器人可以在完成相应的动作。VoxPoser填补了机器人操作和自然语言指令之间的Gap，使得机器人可以执行各种各样的日常操作任务。

在此前的机器人操作研究中，大多数仍然依赖于预定义的动作原语来与环境进行物理交互。这种依赖性是目前系统的主要瓶颈，因为它需要大量的机器人数据。VoxPoser提出了一个解决方案，即利用LLMs内部的丰富知识来生成机器人的操作轨迹，无需进行繁重的数据收集或为每个单独的原语手动设计。

VoxPoser的主要贡献在于其开创性的框架，它能够零样本生成应对动态扰动的闭环机器人轨迹。在没有任何额外辅助（数据、例子、有限的动作组）的情况下，系统输入为任意自然语言（例如：“帮我把地上的白色米粒捡起来并且清洗干净放在厨房干净的袋子里。”），输出为相应的机器动作。机器可以应对多种不同的环境，也可以应对变化中的环境，体现出了一定的鲁棒性。此外，虽然模型是静态的，但该框架也可以实现高效地学习（例如，在3分钟内学会用杠杆把手开门。）。

例子：

例如，给定指令 “打开最上面的抽屉，小心花瓶”，LLM可以推断出： 1）应该抓住抽屉顶部的把手；2）把手需要向外平移；3）机器人应该远离花瓶。

当这些信息以文本形式表达时，LLM可以生成Python代码，调用感知API获取相关物体或部件（如 “把手”）的空间几何信息，然后处理三维体素，在观察空间的相关位置规定奖励或成本（如把手的目标位置被赋予高值，而花瓶周围被赋予低值）。

最后，组成的价值图可以作为运动规划器的目标函数，直接合成实现给定指令1的机器人轨迹，而不需要为每个任务或LLM提供额外的训练数据。图1为示意图和我们考虑的任务子集。

把Vox作为优化问题的公式

其中 $\mathscr l_i$ 是第i个$\mathscr L$，即经过(LLMs或者search-based planner)细分的任务语句（sub-task）。$\mathbf T_i$ 是第i时刻的环境状态。$\tau^\mathbf r_i \subseteq \mathbf T_i$ 是机器人的一系列动作轨迹（trajectory），$C(\mathbf T_i)$ 代表相关的约束条件（dynamics and kinematics constraints）。$F_{task}$ 和$F_{control}$ 分别代表了任务 $\mathscr l_i$ 被 $\mathbf T_i$ 完成的质量分数，以及操纵成本（control cost，包括动作和时间成本）。

例子：

$\mathscr L$ = 打开上层的抽屉

$\mathscr l_1$ = 抓住上层抽屉的把手

$\mathscr l_2$ = 拉开这个抽屉

成功的原因：

VoxPoser和GPT-4的code Interpreter一样，希望可以使用LLMs与代码结合的能力，这样可以简单的获得合理保证——错误的代码是不能被运行的。

However, we find that LLMs excel at inferring language-conditioned affordances and constraints, and by leveraging their code-writing capabilities, they can compose dense 3D voxel maps that ground them in the visual space by orchestrating perception calls and array operations.

非常近的未来，这类系统可以应用于更强大、更个性化的机器代理上。例如可以将洗碗器等家具集成到机器人身上，来获得一个全能的家务机器人。

（由GPT-4生成）

参考：

[1]量子位
[2]https://embodied-ai.org/