你的位置：开云(Kaiyun) - 中国官方服务平台 > 新闻资讯 > 开云体育(中国)官方网站固然 S1 接收与 S2 疏通的图像和景象输入-开云(Kaiyun) - 中国官方服务平台

开云体育(中国)官方网站固然 S1 接收与 S2 疏通的图像和景象输入-开云(Kaiyun) - 中国官方服务平台

时间：2026-04-12 15:12 点击：55 次

腹地 GPU 运行，7B 系统 2 模子 + 80M 系统 1 模子，可多机器东说念主共用「大脑」。

在 2 月份片刻文书拆伙与 OpenAI 合作之后，着名机器东说念主初创公司 Figure AI 在本周四晚公开了背后的原因：他们如故造出了我方的通用具身智能模子 Helix。

Helix 是一个通用的视觉 - 说话 - 动作（VLA）模子，它融合了感知、说话意会和学习戒指，以克服机器东说念主时期中的多个长久挑战。

Helix 创造了多项第一：

全身戒指：它是历史上第一个类东说念主机器东说念主上半身的高速连气儿戒指 VLA 模子，隐蔽手腕、躯干、头部和单个手指；

多机器东说念主合作：不错两台机器东说念主用一个模子戒指合作，完成前所未见的任务；

抓取任何物品：不错捡起任何微型物体，包括数千种它们从未遭受过的物品，只需谨守当然说话指示即可；

单一神经鸠合：Helix 使用一组神经鸠合权重来学习扫数活动 —— 抓取和扬弃物品、使用抽屉和雪柜、以及跨机器东说念主交互 —— 无需任何任务特定的微调；

腹地化：Helix 是史上第一个在腹地 GPU 运行的机器东说念主 VLA 模子，如故具备了贸易化落地才能。

在智能驾驶界限，本年各家车厂皆在激动端到端时期的大界限落地，如今 VLA 驱动的机器东说念主也已进入了贸易化的倒计时，如斯看来 Helix 可谓是具身智能的一次紧要冲破。

一组 Helix 神经鸠合权重同期在两个机器东说念主上运行，它们协同责任，将从未见过的杂货色品收纳起来。

东说念主形机器东说念主时期的新膨胀

Figure 暗示，家庭环境是机器东说念主时期濒临的最大挑战。与受控的工业环境不同，家庭中充满了无数违规矩物体，如易碎的玻璃器皿、皱巴巴的衣物、洒落的玩物，每件物品的体式、大小、方式和质地皆难以揣测。为了让机器东说念主在家庭中融会作用，它们需要能够按需生成智能的新活动。

现时的机器东说念主时期无法膨胀到家庭环境中 —— 当今，即使教机器东说念主一个单一的新活动，也需要多数的东说念主力干预。要么需要数小时的博士级行家手动编程，要么需要数千次的演示，这两种才能的本钱皆高得令东说念主视为畏途。

图 1：不同才能获取新机器东说念主手段的膨胀弧线。在传统的启发式操作中，手段的增长依赖于行家手动编写剧本。在传统机器东说念主效法学习中，手段的膨胀依赖于采集的数据。而通过 Helix，外行段不错通过说话即时指定。

现时，东说念主工智能的其他界限如故掌持了这种即时泛化的才能。若是能陋劣地将视觉 - 说话模子（VLM）中拿获的丰富语义知识平直回荡为机器东说念主动作，能够会杀青时期冲破。

这种新才能将从根底上调动机器东说念主时期的膨胀轨迹（图 1）。于是，关键问题酿成了：怎么从 VLM 中索求扫数这些学问性知识，并将其回荡为可泛化的机器东说念主戒指？Figure 构建了 Helix 来弥合这一差距。

Helix：首个机器东说念主系统 1 + 系统 2 VLA 模子

Helix 是机器东说念主界限上始创的「系统 1 + 系统 2」VLA 模子，用于高速、聪惠地戒指通盘东说念主形机器东说念主上半身。

Figure 暗示，先前的才能濒临一个根人道的量度：VLM 骨干是通用的，但速率不快，而机器东说念主视觉畅通计谋是快速的，但不够通用。Helix 通过两个互补的系统惩办了这一量度，这两个系统经由端到端的检修，不错进行通讯：

系统 1 ( S1 ) ：一种快速反应的视觉畅通计谋，可将 S2 产生的潜在语义表征迁移为 200 Hz 的精准连气儿机器东说念主动作；

系统 2 ( S2 ) ：一个机载互联网预检修的 VLM，以 7-9 Hz 运行，用于场景意会和说话意会，杀青跨物体和高下文的平常泛化。

这种解耦架构允许每个系统在其最好时期法式上运行。S2 不错「冉冉念念考」高端倪想法，而 S1 不错「快速念念考」机器东说念主及时奉行和休养的动作。举例，在合作活动中（见下图），S1 不错快速稳当伙伴机器东说念主不断变化的动作，同期保持 S2 的语义想法。

Helix 能让机器东说念主快速进行精良的畅通休养，这是在奉行新语义想法时对合作伙伴作念出反应所必需的。

Helix 的野心相较于现存才能具有以下几个关键上风：

速率与泛化才能：Helix 在速率上与专门用于单一任务的活动克隆计谋相等，同期能够零样本泛化到数千种新测试对象上；

可膨胀性：Helix 平直输出高维动作空间的连气儿戒指，幸免了之前 VLA 才能中使用的复杂动作记号化决议。这些决议在低维戒指竖立（举例二值化平行夹爪）中取得了一些得手，但在高维东说念主形戒指中濒临膨胀挑战；

架构简陋性：Helix 使用法式架构 —— 一个开源的、灵通权重的 VLM 用于系统 2，以及一个陋劣的基于 Transformer 的视觉畅通计谋用于系统 1；

热情点分离：将 S1 和 S2 解耦使咱们能够差别迭代每个系统，而无需受限于寻找融合的不雅察空间或动作暗示。

Figure 先容了部分模子及检修细节，其采集了一个高质地、多机器东说念主、多操作员的各类化遥操作活动数据集，臆想约 500 小时。为了生成当然说话条目下的检修对，工程东说念主员使用了一个自动标注的视觉说话模子（VLM）来生成过后指示。

该 VLM 会处理来自机器东说念主机载录像头的分段视频片断，并教导：「你会给机器东说念主什么指示以使其奉行视频中看到的动作？」检修时代处理的扫数物品在评估中被排斥，以介怀数据浑浊。

模子架构

Helix 系统主要由两个主要组件构成：S2，一个 VLM 骨干鸠合；S1，一个潜在条目视觉畅通 Transformer。

S2 基于一个 70 亿参数的开源、灵通权重的 VLM 构建，该 VLM 在互联网界限数据上进行了预检修。它处理单目机器东说念主图像和机器东说念主景象信息（包括手腕姿态和手指位置），并将它们投影到视觉说话镶嵌空间中。伙同指依盼愿活动的当然说话指示，S2 将扫数语义任务干系信息提真金不怕火为一个连气儿的潜在向量，传递给 S1 以退换其初级动作。

S1 是一个 8000 万参数的交叉介怀力编码器 - 解码器 Transformer，厚爱初级戒指。它依赖于一个全皆卷积的多法式视觉骨干鸠合进行视觉处理，该鸠合全皆在模拟环境中进行预检修启动化。固然 S1 接收与 S2 疏通的图像和景象输入，但它以更高的频率处理这些输入，以杀青更灵敏的闭环戒指。来自 S2 的潜在向量被投影到 S1 的记号空间中，并与 S1 视觉骨干鸠合索求的视觉特征沿序列维度流畅，提供任务条目。

在责任时，S1 以 200 赫兹的频率输出竣工的上半身东说念主形戒指，包括盼愿的手腕姿态、手指屈曲和外展戒指，以及躯干和头部标的想法。Figure 在动作空间中附加了一个合成的「任务完成百分比」动作，使 Helix 能够揣测本人的远隔条目，从而更容易对多个学习到的活动进行排序。

检修

Helix 的检修是全皆端到端的：从原始像素和文本敕令映射到具有法式转头耗费的连气儿动作。

梯度的反向传播旅途是通过用于退换 S1 活动的隐通讯向量从 S1 到 S2，从而允许对这两个组件进行聚会优化。

Helix 不需要针对具体某某任务进行休养；它只需保管单个检修阶段和一组神经鸠合权重，无需单独的动作头或针对每个任务的微调阶段。

在检修时代，他们还会在 S1 和 S2 输入之间添加一个时期偏移量。此偏移量经由校准以匹配 S1 和 S2 部署的推理延长之间的差距，确保部署时代的及时戒指要求准确反馈在检修中。

经由优化的流式推理

Helix 的检修野心可杀青在 Figure 机器东说念主上高效地并行部署模子，每台机器东说念主皆配备了双低功耗镶嵌式 GPU。推理管说念分为 S2（高档隐计较）和 S1（初级戒指）模子，每个模子皆在专用 GPU 上运行。

S2 手脚异步后台程度运行，用于处理最新的不雅察末端（机载录像头和机器东说念主景象）和当然说话敕令。它不断更新编码高档活动意图的分享内存隐向量。

S1 手脚单独的及时程度奉行，其想法是保管让通盘上身动作平滑奉行所需的关键 200Hz 戒指回路。它的输入是最新的不雅察末端和最新的 S2 隐向量。由于 S2 和 S1 推理之间存在固有的速率差异，因此 S1 当然会在机器东说念主不雅察上以更高的时期分辨率运行，从而为反应戒指创建更紧密的反馈回路。

这种部署计谋专门反馈了检修中引入的时期偏移量，从而可最大放浪地减少检修推理分散差距。这种异步奉行模子允许两个程度以各自最好频率运行，使 Helix 的运行速率能与最快的单任务效法学习计谋相似快。

趣味的是，在 Figure 发布 Helix 之后，清华大学博士生 Yanjiang Guo 暗示那时期念念路与他们的一篇 CoRL 2024 论文颇为相似，感趣味的读者也可参照阅读。

论文地址：https://arxiv.org/abs/2410.05273

末端

细粒度 VLA 全上身戒指

Helix 能以 200Hz 的频率协调 35 解放度的动作空间，戒指从单个手指畅通到末端奉行器轨迹、头部注目和躯干姿势等一切。

头部和躯干戒指具有私有的挑战 —— 当头部和躯干挪动时，会调动机器东说念主不错涉及的范围和不错看到的范围，从而产生反馈回路，夙昔这种反馈回路会导致不踏实。

视频 3 演示了这种协调的本色操作：机器东说念主用头部安定地追踪双手，同期休养躯干以赢得最好涉及范围，同期保持精准的手指戒指以进行抓持。在此之前，在如斯高维的动作空间中杀青这种精度水平是很难的，即使关于单个且已知的任务亦然如斯。Figure 公司暗示，之前还莫得 VLA 系统能够进展出这种程度的及时协调，同期保持跨任务和物体泛化的才能。

Helix 的 VLA 能戒指通盘东说念主形机器东说念主上半身，这是机器东说念主学习界限首个作念到一丝的模子。

零样本多机器东说念主协同

Figure 暗示，他们在一个高难度多智能体操作场景中将 Helix 推向极限：两台 Figure 机器东说念主合作杀青零样本杂货存放。

视频 1 展示了两个基本逾越：两台机器东说念主得手地操作了全新的货色（检修时代从未遭受过的物品），展示了对各类体式、大小和材料的正经泛化。

此外，两个机器东说念主皆使用疏通的 Helix 模子权重进行操作，无需进行特定于具体机器东说念主的检修或明确的扮装分派。它们的协同是通过当然说话教导词杀青的，举例「将一袋饼干递给你右边的机器东说念主」或「从你左边的机器东说念主那儿接过一袋饼干并将其放在大开的抽屉里」（参见视频 4）。这是初度使用 VLA 展示多台机器东说念主之间天真、膨胀的合作操作。考虑到它们得手处理了全新的物体，这项建树就显得尤其权贵了。

袒泄漏「提起任何东西」才能

只需一个「提起 [ X ] 」指示，配备了 Helix 的 Figure 机器东说念主基本就能提起任何微型家用物品。在系统性测试中，无需任何事前演示或自界说编程，机器东说念主就得手地处理了杂沓摆放的数千件新物品 —— 从玻璃器皿和玩物到器用和穿着。

超过值得介怀的是，Helix 不错开荒互联网界限的说话意会和精准的机器东说念主戒指之间的研究。举例，当被教导「提起沙漠物品」时，Helix 不仅能详情出玩物仙东说念主掌与这个综合见解相匹配，还能遴荐最近的手并能通过精准畅通敕令安全地抓起它。

Figure 公司暗示：「关于在非结构化环境中部署东说念主形机器东说念主，这种通用的『说话到动作』抓取才能开辟了令东说念主容许的新可能。」

Helix 可将「提起 [ X ] 」等高层面指示转译成低层动作。

商量

Helix 的检修成果很高

Helix 以少量的资源杀青了强大的物体泛化。Figure 公司暗示：「咱们总计使用了约 500 小时的高质地监督数据来检修 Helix，这只是是之前采集的 VLA 数据集的一小部分（

单一权重集

现存的 VLA 系统通常需要专门的微调或专用的动作头来优化奉行不同高档活动的性能。值得介怀的是，Helix 仅使用一组神经鸠合权重（系统 2 为 7B、系统 1 为 80M），就不错完成在各类容器中拾取和扬弃物品、操作抽屉和雪柜、协调聪惠的多机器东说念主派遣以及主管数千个新物体等动作。

「提起 Helix」（Helix 意为螺旋）

总结

Helix 是首个通过当然说话平直戒指通盘东说念主形机器东说念主上半身的「视觉 - 说话 - 动作」模子。与早期的机器东说念主系统不同，Helix 能够即时生成长视界、合作、聪惠的操作，而无需任何特定于任务的演示或多数的手动编程。

Helix 进展出了强大的对象泛化才能，能够提起数千种体式、大小、方式和材料特色各别的新奇家居用品，何况这些物品在检修中从未遭受过，只需用当然说话敕令即可。该公司暗示：「这代表了 Figure 在膨胀东说念主形机器东说念主活动方面迈出了变革性的一步 —— 咱们敬佩，跟着咱们的机器东说念主越来越多地协助日常家庭环境，这一步将至关伏击。」

固然这些早期末端如实令东说念主容许，但总体来说，咱们上头看到的还皆属于见解考据，只是展示了可能性。确凿的变革将发生在能大界限本色部署 Helix 的时候。期待那一天早些到来！

终末顺带一提，Figure 的发布可能只是本年具身智能繁密冲破的一小步。今天凌晨，1X 机器东说念主也官宣行将推出新品。

开云体育(中国)官方网站