机器人行业专题报告：机器人的大脑，具身智能（附下载）

报告研究所 2024年08月30日 15:42

（精选报告来源：报告研究所）

1. 具身大模型：能够理解三维物理世界的模型

1.1. 非具身大模型 vs 具身大模型：是否可以生产运动姿态

从物理空间的角度来划分，大模型可以分为非具身大模型（基础大模型）、具身智能大模型（机器人大模型），它们的区别是能否生成运动姿态。（1）非具身大模型：代表的模型有 GPT、Sora、文心一言、通义千问等，这类模型输入的是语言、图片和视频，输出的模态是语言、图片和视频。大模型采取 Transformer 架构，以与训练+微调的形态有效摆脱对基于场景数据训练的依赖，解决了长距离信息关联的问题。在人形机器人的应用，大模型集成了多模态的感知模块，大幅提升了机器人额环境感知和人机交互，上层规划的能力。（2）具身大模型：以自动家数大模型和机器人大模型为代表，如 Tesla FSD、谷歌 RT、RFM-1、ViLa 和 CoPa 等，具身大模型输入的是视觉、语言信号，输出的是三维物理世界的操作。

1.2. 具身大模型：端到端&分层端到端

具身智能大模型主要有两个路径：（1）端到端的具身大模型，以谷歌的 RT 模型为代表；（2）基于 LLM 或 VLM 的具身分层大模型，大多数的机器人公司都采取了这个方案，典型代表有：Tesla FSD，Figure AI，星海图，银河通用，智元机器人等。

端到端的大模型同时训练决策和操作，直接端到端地实现从人类指令到机械臂执行，其特点有：1）需要大量真实长任务数据才能有效，且要覆盖所有可能的任务，所需的数据量估计需要达到万亿级别。以谷歌的 RT 模型为例，谷歌花了上千万美金 16 个人耗时 17 个月收集得到了 13 万条厨房数据训练 RT，模型在厨房表现很好，但除了厨房成功率却骤降至 30%。泛化性难其实一定程度上是由于数据采集没有做到 scalable。归根到底是由于机器人的物理数据不如互联网图像/文本数据那样大量且易得，与自动驾驶这一单一任务相比，如果每种任务都需要自动驾驶那么多数据、这一数据量要大得多。2）推理速度慢。RT2 采用的 LLM 是谷歌的 PaLM-E，频率 1-3Hz，响应速度 0.3s~1s。

1.3. 主流方案：分层端到端，典型代表 Figure AI

由于端到端大模型目前面对局限性，因此目前大多数的机器人公司都采取了分层端到端的方案，通过决策大模型和操作大模型的相互配合，分层端到端的方法需要的训练数据相对较少，能够完成各种新任务。多层端到端大模型的上层是多模态通用大模型，可以调度中间技能 API，来实现完整的从任务的感知、规划到执行的全流程；中间层是决策大模型（任务/运动规划），通过数据训练的泛化的技能，包括自主建图、自主导航、物体抓取、开门开抽屉开冰箱、移动操作、挂衣服叠衣服柔性物体操作的泛化技能；底层是硬件驱动执行算法，实现机器人的平衡，实时精准的运控。

典型代表：Figure 02 采取了基于 VLM 的分层大模型。在 Figure 发布的演示中，Figure 01 能理解周围环境，流畅地与人类交谈，理解人类的需求并完成具体行动，包括响应人类想吃东西的问题递过去苹果，然后一边将黑色塑料袋收拾进框子里一边解释递苹果的原因，将杯子和盘子归置好放在沥水架上。在 Figure 01 的视频里，OpenAI 提供了视觉和语言理解能力，而 Figure AI 则提供了机器人的动作规划和控制能力。OpenAI 和 Figure 合作用的小模型，动作输出频率 200Hz，从 Figure 01 的 Demo 视频展示中，响应速度几乎没有延时。Figure 02 搭载了机载的视觉语言模型（VLM），通过机载麦克风和扬声器，实现了与人类的高效对话，具备了快速的常识性视觉推理能力，能够自主执行多种复杂任务。

典型代表：银河通用采取三层大模型系统。底层是硬件层，中间层是些响应快小模型（如：三维感知、自主建图、自主导航、物体抓取、开门开抽屉开冰箱、移动操作、挂衣服叠衣服、柔性物体操作等），上层是用来做推理慢的做任务规划的大语言模型 LLM。当得到指令， LLM 负责分析，安排调度哪个小模型 API。小模型执行完后，LLM 分析结果，研究下一步该怎么做。

2. 具身大模型的主流方案：分层端到端

2.1. 基础大模型：LLM&VLM

大模型采取 Transformer 架构，以与训练+微调的形态有效摆脱对基于场景数据训练的依赖，解决了长距离信息关联的问题。在人形机器人的应用，大模型集成了多模态的感知模块，大幅提升了机器人额环境感知和人机交互，上层规划的能力。Figure01 采用 OPEN AI 的多模态大模型，类似于 RT-1+PaLM-E 的模型融合。

2.2. 决策大模型：从 LLM 向 RL 演进

决策智能面临开放变化环境情况下的泛化问题，决策大模型使用大模型解决决策任务中的环境变化、开放环境、策略泛化性问题。其核心任务是基于任务理解，自动生产运控指令，为操作模块提供指令输入，也就是将复杂的任务分解为一系列动作指令，然后交由操作大模型逐一执行。以 ChatGPT for Robotics 为例，将 prompt 封装成函数或类，将复杂任务拆解为子任务序列，并逐步调用相应的 prompt，生成 python 代码指令。首先，定义一组高级机器人 API 或函数库。该库可以针对特定的机器人类型进行设计，并且应该从机器人的控制栈或感知库映射到现有的低层次具体实现。为高级 API 使用描述性名称非常重要，这样 ChatGPT 就可以推理它们的行为。接下来，为 ChatGPT 编写一个文本提示，描述任务目标，同时明确说明高级库中的哪些函数可用。提示还可以包含有关任务约束的信息，或者 ChatGPT 应该如何组织它的答案，包括使用特定的编程语言，或使用辅助解析组件等。再次，用户通过直接检查或使用模拟器来评估 ChatGPT 的代码输出。如果需要，用户使用自然语言向 ChatGPT 提供有关答案质量和安全性的反馈。最后，当用户对解决方案感到满意时，就可以将最终的代码部署到机器人上。示例：输入指令“将苹果放入碗中”，决策大模型将输出一系列动作指令，包括“识别苹果”、“抓取苹果”、“识别碗”和“放置苹果于碗内”。

谷歌 PaLM-E 是一个用于体现推理任务、视觉语言任务和纯粹语言任务的单一通用多模态语言模型。PaLM-E 基于丰富的多模态模型知识对任务进行理解和处理，并分解成待定的机器人指令，RT-1 将代堆的机器人指令转化为机器人控股指令，模型将较为复杂的任务分解成简单的不走完成，并且具备了更强的抗干扰性和知识能力。决策大模型的两种范式主要围绕大语言模型（LLM）展开，结合不同的技术和方法，以实现更高效的决策过程：范式 A（LLM）：以基于深度学习的大语言模型为中心，配合 API 选择和其他技术手段，实现决策过程的优化。这种范式利用大语言模型处理自然语言任务的能力，如文本分类、问答、对话等，作为通向人工智能的重要途径。大语言模型通过大量文本数据训练得到，能够生成自然语言文本或理解语言文本的含义，处理多种自然语言任务，并在多个基准测试上表现出色。这种范式的应用通常需要掌握 Python 编程知识、神经网络的知识以及深度学习框架，以便更有效地使用这些大语言模型进行训练和推理。范式 B（RL）：基于强化学习的范式，使模型能够在不同环境和任务中学习和适应，实现更高级的决策能力。通过学习额外的一个价值函数，使得能够大致知道往哪边去搜索，哪些行动最终会带来好的结果，哪些会导致不好的结果。在这种比较庞大的决策树下，引导大语言模型做出相关的决策，通过前瞻技术产生当前可以有的更好的行动。这种范式不仅仅是基于一个已经被训练好的大语言模型，更多的是一个强化学习的框架，通过训练过程的不同，使得模型能够在不同的任务上做出泛化，实现 goal condition reinforcement learning，而不是使用单一的奖励函数。这种范式的训练过程与一般的强化学习有所不同，因为它希望模型能够在不同的任务上做出泛化。

2.3. 操作大模型:从“MPC+WBC”向“RL+仿真”演进

操作大模型是根据决策大模型的输出执行具体动作，如“抓取”、“打开”、“旋转”等。与决策大模型不同，操作大模型需要与机器人硬件深度集成，且必须通过数据采集来实现。运动控制算法的演进：基于模型的控制和算法——MPC+ WBC——RL+仿真模拟。MPC 更适合具有精确模型和短期优化目标的场景，RL 更适用于不确定性高、需要长期学习和自适应的环境。

模型预测控制（MPC）与全身控制（WBC）结合：MPC 根据用户和控制器指定计算反作用力和位置命令，将计算结果传递给关节控制器，通过驱动硬件的伺服系统和关节，实现全身运控。任何为机器人控制系统的驱动关节产生控制信号的操作都可以叫做 WBC。控制系统框图如下所示，1)构建并求解基于质心动力学建立的非线性模型预测控制器(NMPC)，用于规划机器人质心和四肢的运动轨迹。其中 NMPC 的代价函数为系统状态误差的加权平方与系统输入的加权平方之和，其约束包括足端作用力在摩擦锥内、足端触地速度为零和摆动腿的 Z 轴轨迹追踪。2)将追踪的状态变量定义为一组带优先级的轨迹跟踪任务(WBC)，求解以生成机器人驱动关节的控制信号。WBC 建立的任务有运动方程、质心状态追踪、关节力矩限幅等。3) 使用卡尔曼滤波器融合 IMU 和驱动关节数据，得到机器人质心的位姿、速度和关节位置、速度等状态，并反馈给 NMPC、WBC 控制器。

MPC 的局限性：（1）在 MPC 模型预测滚动优化的过程其实是一个实时迭代的过程，要求很大的计算量和计算时间。这就意味着 MPC 模型预测其实适用于慢动态过程和具有高性能计算机的工作环境；（2）现有的预测控制算法多数采用工业界易于获得的阶跃响应或脉冲响应这类非参数模型，并通过在线求解约束优化问题实现优化控制，对于约束系统无法得到解的解析表达式，这给用传统定量分析方法探求设计参数与系统性能的关系带来了困难，使得这些算法中的大量设计参数仍需人为设定并通过大量仿真进行后验，因此除了需要花费较大的前期成本外，现场技术人员的经验对应用的成败也起着关键的作用。RL+仿真训练：可以让具身智能从环境中获得更优的状态，然后由智能体做出决策，并对环境做出适当的行为反应。比较关心的是具体的输入输出，对于物理交互任务来说：输入：1）状态：机器人的位置、速度、加速度等运动学信息，以及可能包括的力反馈信息。这些信息通过机器人的传感器（如编码器、力传感器等）获取。2）环境信息：机器人所处环境的信息，如障碍物的位置、形状等。这些信息也可以通过机器人的感知系统（如视觉系统、激光雷达等）获取。输出：1）动作：机器人的运动指令，如速度、加速度、方向等。这些指令直接控制机器人的运动。2）控制参数调整：在阻抗控制中，输出可能还包括对阻抗参数的调整，如刚度、阻尼等。这些参数的调整会影响机器人在与环境交互时的力反馈行为。

强化学习在具有力感知的机械臂操作任务中也存在问题：（1）数据收集与标注问题：强化学习的方法去做控制机械臂抓取的任务，需要大量的数据进行训练，但是通常没有足够多的真实数据去训练强化学习模型，因为这不仅需要精确的力感知设备，还需要进行数据收集和标注。所以最常见的做法就是用仿真去产生大量的训练数据，训练数据越多强化学习模型才越鲁棒。但是存在的一个问题是仿真图片和真实图像是有差距的，在仿真环境里训练出来的 RL 模型可能在真实场景中应用的时候并不那么好。（2）模型泛化能力：强化学习模型往往容易过拟合于特定的任务和环境，导致其泛化能力受限。当面对新的任务或环境时，模型可能需要重新进行训练和调整，这增加了应用的复杂性和成本。（3）实时性与稳定性：强化学习算法在训练过程中可能会受到噪声、延迟等因素的影响，导致实时性和稳定性下降。

3. 数据采集：具身智能最大的壁垒之一

3.1. 机器人场景数据主流采集方法：远程操作、仿真合成数据

本报告文件将分享到报告研究所知识星球，扫描下方图片中二维码即可查阅

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

欢迎加入报告研究所知识星球社群，入圈后您可以享受以下服务：

1、报告持续更新，分享最新、最专业、最深度的行业研究报告、投行报告、白皮书、蓝皮书、公司研报等。公众号发布的报告可同步下载；

2、海量研究报告均可下载PDF高清版，无限制；

3、会员可以提问方式获取具体报告需求；

扫描下方二维码加入星球

业务咨询、商务合作：136 3162 3664（同微信）

温馨提示

应广大粉丝要求，「报告研究所」成立了报告交流群，欢迎各位公司企业、投行、投资机构、政府机构、基金、创业者及金融资本圈朋友加入！

这里能且不限于：“行业交流、报告交流、信息交流、寻求合作等......”

入群方式：添加助理微信touzireport666，发送「个人纸质名片」或「电子名片」审核后即可入群

机器人78

具身智能2

报告793

研究报告790

机器人 · 目录

上一篇2024年中期机器人行业投资策略报告：群雄逐鹿，曙光将至（附下载）

继续滑动看下一个

报告研究所

向上滑动看下一个

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

机器人行业专题报告：机器人的大脑，具身智能（附下载）

1. 具身大模型：能够理解三维物理世界的模型

2. 具身大模型的主流方案：分层端到端

3. 数据采集：具身智能最大的壁垒之一

您可能也对以下帖子感兴趣

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

生成图片，分享到微信朋友圈

机器人行业专题报告：机器人的大脑，具身智能（附下载）

1. 具身大模型：能够理解三维物理世界的模型

2. 具身大模型的主流方案：分层端到端

3. 数据采集：具身智能最大的壁垒之一

您可能也对以下帖子感兴趣