首個無師自通、泛化使用各種家具家電的具身三维圖文大模型系統

admin · 發表於 2024-5-8 14:35:03

這几天，家務活都被呆板人抢着干了。

前脚来自斯坦福的會用锅的呆板人方才登場，後脚又来了個會用咖啡機的呆板人 Figure-01 。

只需给它旁觀树模視频，加之10個小時的练習，Figure-01 就可以學會利用咖啡機，放咖啡膠囊到按下启动键，趁热打铁。

可是想要讓呆板人無師自通，第一次見到百般各样的家具家電，就可以在没有树模視频的環境下纯熟利用。這是個難以解决的問題，不但必要呆板人具有壮大的視觉感知、决议计劃计劃能力，更必要切确的把持技術。

如今，一個三维具身圖文大模子體系為以上困難供给了新思绪。该體系将基于三维視觉的精准几何感知模子與长于计劃的二维圖文大模子連系了起来，無需样本数据，便可解决與家具家電有關的繁杂长程使命。

這项钻研由斯坦福大學的 Leonidas Guibas 傳授、北京大學的王鹤傳授團隊，與智源人工智能钻研院互助完成。

論文链接：

项目主页：

代码：

钻研問題概述

圖 1：按照人類指令，機器臂可以或许無師自通地利用各類家用電器。

近日，PaLM-E 和 GPT-4V 动員了圖文大模子在呆板人使命计劃中的利用，視觉說话指导下的泛化呆板人操控成了热點钻研范畴。

以往的常見法子是創建一個两层的體系，上层的圖文大模子做计劃和技術调剂，基层的操控技術计谋模子賣力物理地执举措作。但當呆板人在家務活中面临各類各样從未見過而且必要多步操作的家用電器時，現有法子中的上下两层都将一筹莫展。

以今朝最先辈的圖文大模子 GPT-4V 為例，固然它可以對单张圖片举行文字描写，但触及可操作零部件检测、计数、定位及状况估量時，它依然毛病百出。圖二中的赤色高亮部門是 GPT-4V 在描写抽屉柜、烤箱和立柜的圖片時呈現的各類毛病。基于毛病的描写，呆板人再举行技術调剂，明显不太靠得住。

圖 2：GPT-4V 不克不及很好處置计数，检测，定位，状况估量等泛化操控所存眷的使命。

基层的操控技術计谋模子賣力在各類各样的現實環境中履行上层圖文大模子给出的使命。現有的钻研功效大部門是基于法则僵硬地對一些已知物體的抓取點位和操作方法举行了编码，没法泛應答没見過的新物體種别。而基于端到真個操作模子（如 RT-1，RT-2 等）只利用了 RGB 模态，@缺%693sq%少對間%v3f2F%隔@的正确感知，對新情况中如高度等變革的泛化性较差。

受王鹤傳授團隊以前的 CVPR Highlight 事情 GAPartNet [1] 启發，钻研團隊将重點放在了各類類此外家用電器中的通用零部件（GAPart）之上。固然家用電器千變万化，但总有几样零件不成或缺，每一個家電和這些通用的零件之間存在類似的几何和交互模式。

由此，钻研團隊在 GAPartNet [1] 這篇論文中引入了 GAPart 這一觀點。GAPart 指可泛化可交互的零部件。GAPart 呈現在分歧類此外铰接物體上，比方，在保险箱，衣柜，冰箱中都能找到铰接門這類零件。如圖 3，GAPartNet [1] 在各種物體上標注了 GAPart 的语义和位姿。

圖3：GAPart：可泛化可交互的零部件[1]。

在以前钻研的根本上，钻研團隊缔造性地将基于三维視觉的 GAPart 引入了呆板人的物體操控體系 SAGE 。SAGE 将經由過程可泛化的三维零件检测 (part detection)，切确的位姿估量 (pose estimation) 為 VLM 和 LLM 供给信息。新法子在决议计劃层解决了二维圖文模子邃密计较和推理能力不足的問題；在履行层，新法子經由過程基于 GAPart 位姿的鲁棒物理操作 API 實現了對各個零件的泛化性操作。

SAGE 構成為了首個三维具身圖文大模子體系，為呆板人從感知、物理交互再到反馈的全链路供给了新思绪，為呆板人可以或许智能、通用地操控家具家電等繁杂物體探访迷你小鋼琴,了一條可行的門路。

體系先容

圖 4 展現了 SAGE 的根基流程。起首，一個可以或许解读上下文的指令诠释模块将解析输入呆板人的指令和其察看成果，将這些解析轉化為下一步呆板人动作步伐和與其相干的语义部門。接下来，SAGE 将语义部門（如容器 container）與必要举行操作部門（如滑动按钮 slider button）對應起来，并天生动作（如按钮的「按压 press」动作）来完成使命。

圖 4：法子概览。

為了便利大師理解全部體系流程，一块兒来看看在無需样本的環境下，讓機器臂利用操作一款没見過的微波炉的例子。

指令解析：從視觉和指令输入到可履行的技術指令

输入指令和 RGBD 圖象觀测後，诠释器起首利用 VLM 和 GAPartNet [1] 生成為了場景描写。随後，LLM（GPT-4）将指令和場景描写作為输入，天生语义零件和动作步伐。或也能够在這個環節输入一個特定的用户手册。LLM 将基于输入天生一個可操作零件的方针。

圖 5：場景描写的天生（以 zero-shot 利用微波炉為例）。

為了更好地协助动作天生，場景描写包括物體信息、零件信息和一些與互动相干的信息。在天生場景描写以前，SAGE 還将采纳專家级 GAPart 模子 [1] 為 VLM 天生專家描写作為提醒。這類兼收了两種模子的长處的法子结果杰出。

圖 6：指令理解和活动计劃（以 zero-shot 利用微波炉為例）。

零件交互信息的理解與感知

圖 7：零件理解。

在输入察看成果的進程中，SAGE 综合了来自 GroundedSAM 的二维（2D）提醒和来自 GAPartNet 的三维（3D）提醒，然後這些提醒被用作可操作零件的详细定位。钻研團隊操纵 ScoreNet魔龍傳奇打法,、非极大值按捺（NMS）和 PoseNet 等展現了新法子的感知成果。

此中：（1）對付零件感知评估基准，文章直接采纳了 SAM [2]。但是，在操作流程中，文章利用了 GroundedSAM，它也斟酌到了作為输入的语义零件。（2）若是大型說话模子（LLM）直接输出了一個可操作零件的方针，那末定位進程将被绕過。

圖 8：零件理解（以 zero-shot 利用微波炉為例）。

动作天生

一旦将语义零件定位到可操作零件之上，SAGE 将在這個零件上天生可履行的操作动作。起首，SAGE 将估量零件的姿态，按照铰接類型（平移或扭轉）计较铰接状况（零件轴線和位置）和可能的活动標的目的。然後，它再按照以上估算天生呆板人操作零件的动作。

在启动微波炉這個使命中，SAGE 起首展望機器臂應當以一個初始夹爪姿态作為重要动作。再按照 GAPartNet [1] 中界說的預定计谋發生动作。這個计谋是按照零件姿态和铰接状况肯定的。比方，為了打開一個带有扭轉铰接的門，肇端位置可以在門的邊沿或把手上，其轨迹是沿着門搭钮定向的圆弧。

交互反馈驅蚊凝膠,

到今朝為止，钻研團隊只利用了一個初始觀测来天生開環交互。這時候，他们引入了一種機制，可以進一步操纵在互动進程中得到的觀测成果，更新感知成果并响應调解操作。為了實現這一方针，钻研團隊為互动進最新娛樂城,程中引入了一個两部門的反馈機制。

理當注重，在初次觀测的感知進程中可能呈現遮挡和估算毛病。

圖 9：直接開門不克不及打開，该轮交互失败（以 zero-shot 利用微波炉為例）。

為领會决這些問題，钻研者们進而提出了一個模子，操纵交互式觀测 (Interactive Perception) 来加强操作。在全部互动進程中，方针夹持器和零件状况的跟踪得以連结。若是呈現显著的误差，计劃器可以自行選擇如下四種状况之一：「继续」、「轉移到下一步」、「遏制并從新计劃」或「樂成」。

比方，若是设置夹持器沿着一個枢纽關頭扭轉 60 度，但門只打開了 15 度，大型說话模子（LLM）计劃器會選擇「遏制并從新计劃」。這類互动跟踪模子确保 LLM 在互动進程中可以或许详细問題详细阐發，在微波炉启动失败的波折中也能從新「站起来」。

圖 10：經由過程交互反馈和從新计劃，呆板人意想到按钮打開的法子并樂成。

實行成果

钻研團隊起首搭建了一個大范围說话引导的铰接物體交互的测試基准。

圖 11：SAPIEN 摹拟實行。

他们利用了 SAPIEN 情况 [4] 举行了摹拟實行，并設計了 12 项說话指导的铰接物體操作使命。對付微波炉、储物家具和橱柜的每一個種别，各設計了 3 個使命，包含在分歧初始状况下的開启状况和封闭状况。其他使命為「打開锅盖」、「按下遥控器的按钮」和「启动搅拌器」。實行成果显示，在几近所有使命中 SAGE 都表示出色。

圖 12：真機演示石斛,。

钻研團隊同時也举行了大范围真實世界實行，他们利用 UFACTORY xArm 6 和多種分歧的铰接物體举行操作。上圖的左上部門展現了一個启动搅拌器的案例。搅拌器的顶部被感知為一個用于装果汁的容器，但其現實功效必要按下一個按钮来開启。SAGE 的框架有用地毗連了其语义和动作理解，并樂成履行了使命。

上圖右上部門展現了呆板人，必要按下（下压）告急遏制按钮来遏制操作，扭轉（向上）来重启。借助用户手册的辅助输入，在 SAGE 引导下的機器臂完成為了這两個使命。上圖底部的圖片展現了開启微波炉使命中的更多细節。

圖 13：更多真機演示和指令解读示例。

总结

SAGE是首個可以或许天生通用的家具家電等繁杂铰接物體操控指令的三维視觉說话模子框架。它經由過程在零件级别上毗連物體语义和可操作性理解，将說话指令的动作轉化為可履行的操控。

别的，文章還钻研了将通用的大型視觉 / 說话模子與范畴專家模子相連系的法子，以加强收集展望的周全性和准确性，更好地處置這些使命并實現最先辈的機能。實行成果表白，该框架具备壮大的泛化能力，可以在分歧物體種别和使命上展現出優胜的機能。别的，文章還為說话引导的铰接物體操作供给了一個新的基准测試。

團隊先容

SAGE 這一钻研功效来自斯坦福大學 Leonidas Guibas 傳授實行室、北京大學王鹤傳授具身感知和交互（EPIC Lab）和智源人工智能钻研院。論文的作者為北京大學學生、斯坦福大學拜候學者耿浩然（配合一作）、北京大學博士生魏松林（配合一作）、斯坦福大學博士生邓丛悦，沈博魁，引导教員為 Leonidas Guibas 傳授和王鹤傳授。

参考文献：

[1] Haoran Geng，Helin Xu，Chengyang Zhao，Chao Xu，Li Yi，Siyuan Huang，and He Wang。Gapartnet: Cross-category domaingeneralizable object perception and manipulation via generalizable and actionable parts。arXiv preprint arXiv:2211.05272，2022.

[2] Kirillov，Alexander，Eric Mintun，Nikhila Ravi，Hanzi Mao，Chloe Rolland，Laura Gustafson，Tete Xiao et al。"Segment anything." arXiv preprint arXiv:2304.02643 (2023).

[3] Zhang，Hao，Feng Li，Shilong Liu，Lei Zhang，Hang Su，Jun Zhu，Lionel M。Ni，and Heung-Yeung Shum。"Dino: Detr with improved denoising anchor boxes for end-to-end object detection." arXiv preprint arXiv:2203.03605 (2022).

[4] Xiang，Fanbo，Yuzhe Qin，Kaichun Mo，Yikuan Xia，Hao Zhu，Fangchen Liu，Minghua Liu et al。"Sapien: A simulated part-based interactive environment." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition，pp。11097-11107。2020.

		自動登錄	找回密碼
密碼			立即註冊