當機器人能像人類一樣理解自然語言指令,還能預判環境變化、自主規避物理風險時,通用人工智能的落地似乎不再遙遠。近日,清華大學計算機科學與技術系,北京信息科學與技術國家研究中心,復旦大學可信具身智能研究所聯合發布《Embodied AI: From LLMs to World Models》。系統性梳理了具身智能的技術脈絡,尤其聚焦大語言模型與世界模型的協同。
先搞懂什么是具身智能?它和普通AI 有啥不一樣?
提起AI,很多人會想到只在數字世界對話的系統,或是圖像識別這類被動處理數據的工具,這些都屬于離身智能,它們不直接和物理世界互動。

而具身智能的核心是活在物理世界里:它需要像人一樣,通過傳感器主動感知環境,用認知系統處理經驗,再用執行器做出動作,形成感知- 認知 - 互動的閉環。就像家里的掃地機器人能避開桌椅、規劃清掃路徑、調整刷子轉速,就是一種簡單的具身智能;更復雜的像救災無人機自主避開障礙物、工業機械臂靈活抓取不同零件,都屬于這一范疇。
該研究團隊強調,具身智能的終極目標是接近人類級別的通用智能,它不是只解決單一任務,而是能在動態、不確定的物理世界里自主適應。舉個例子,一個具身智能機器人,既該聽懂把客廳的杯子放到廚房,又該知道杯子是易碎品,還能避開路上的寵物。
從單感官到多感官,具身智能如何突破局限?
早期的具身智能更像偏科生,有的只靠視覺導航,有的只靠語言做任務規劃,這種單模態模式有明顯短板。

單模態與多模態具身智能
純視覺的機器人,在昏暗環境或動態場景里很容易迷路;純語言控制的機器人,可能會因為沒考慮物理規律提出離譜指令。

后來技術轉向多模態融合:把視覺、語言、觸覺、聽覺等信息整合起來。就像現在的服務機器人,既能通過攝像頭看到物體位置,又能通過語言理解用戶需求,還能通過觸覺感知物體重量,這種多模態能力讓它能更靈活地處理復雜任務,能夠輕輕拿起裝滿水的玻璃杯。
研究團隊用一張圖形象對比兩者:單模態是感知、認知、互動各管一攤,多模態則是三者互相配合、信息互通。而推動這一轉變的關鍵,正是大語言模型和世界模型的突破。
兩大核心技術:大語言模型負責懂,世界模型負責做
具身智能要在物理世界生存,需要解決兩個核心問題:理解任務和符合物理規律。而大語言模型和世界模型,恰好分別補上這兩個短板。
1.大語言模型:讓機器人能聽懂、會規劃
大語言模型的核心作用是賦予語義智能,它讓機器人從只能執行固定指令,升級為能理解模糊、復雜的人類語言,并拆解任務。
舉個例子,你跟機器人說準備下午茶,大語言模型會先做語義推理,理解下午茶通常包括泡茶、拿點心、擺盤子;再做任務分解,把大目標拆成去廚房拿茶壺、接水、加熱、去冰箱拿蛋糕、放到茶幾等具體步驟。
該研究團隊提到Google 的 SayCan 案例:它給大語言模型搭配真實世界動作庫,避免大語言模型提出不切實際的動作,同時用價值函數驗證每個動作的可行性。不過早期大語言模型的局限也很明顯,它依賴固定的動作庫,換個新機器人或新環境,就可能水土不服。

多模態大語言模型
后來出現的多模態大語言模型進一步突破這個問題。就像PaLM-E、RT-2 這些模型,能直接處理圖像、語言、觸覺等多模態信息,看到杯子、聽到拿杯子、感知杯子重量,直接輸出控制機械臂的動作序列,不用再依賴固定動作庫。
2.世界模型:讓機器人懂物理、能預判
如果說大語言模型負責想明白要做什么,世界模型就負責想明白這么做會有什么后果,它相當于給機器人建立大腦里的物理世界模擬器。

具身世界模型發展路線
世界模型主要做兩件事:
構建內部表征:把傳感器收集的復雜信息壓縮成結構化的內部地圖,包含物體位置、物理屬性、空間關系。這樣機器人不用每次都重新觀察世界,就能快速調用關鍵信息。
預測未來變化:根據物理規律預判動作的后果。比如機器人想推桌子,世界模型會先模擬推桌子時會不會把上面的杯子碰倒;救災無人機想穿過峽谷,世界模型會預判氣流會不會讓機身不穩。這種預判能力,能幫機器人避開風險、提高效率。

具身智能關鍵技術模型
研究團隊提到幾種主流的世界模型架構:RSSM 擅長處理時序信息,適合做短期動作預測;JEPA 擅長提取語義特征,適合理解物體屬性;Transformer-based 模型則擅長處理長序列信息,適合復雜環境的長期規劃。
不過世界模型也有短板,它擅長模擬物理,但不擅長理解抽象語義。它能預判推杯子會讓杯子移動,但可能聽不懂把杯子送給媽媽里的媽媽是什么意思,這就需要和大語言模型配合。
大語言模型+ 世界模型,1+1>2 的協同架構
該研究團隊的核心觀點之一是,單獨用大語言模型或世界模型,都無法實現高級具身智能;只有讓兩者結合,才能打通語義理解和物理執行的鴻溝。

搭載多模態大語言模型與世界模型的具身智能
為什么這么說?看兩者的互補性就知道,大語言模型懂語義,但不懂物理。它可能規劃出讓機械臂穿過桌子拿東西的步驟,卻不知道這違反物理規律。世界模型的問題懂物理,但不懂語義。它能預判推桌子會碰倒杯子,卻不知道為什么要推桌子。
而兩者結合后,就能形成語義指導物理,物理約束語義的閉環,大語言模型先根據用戶需求拆解任務,生成初步動作計劃。世界模型驗證這個計劃是否符合物理規律,并預測每個動作的后果。如果計劃有問題,世界模型反饋給大語言模型,大語言模型再調整計劃。最終生成既符合用戶需求、又符合物理規律的動作序列,讓執行器落地。
該研究團隊舉了EvoAgent 的例子:這個具身智能體用大語言模型做任務規劃和自我反思,用世界模型做環境建模和動作預測,結果能在不同環境里自主完成長期任務,全程不用人類干預。
簡單說,大語言模型讓機器人不糊涂,世界模型讓機器人不莽撞,兩者結合,才是具身智能走向實用的關鍵。
從家庭到工業,具身智能已經在改變什么?
以前的服務機器人,比如酒店送物機器人,只能走預設路線,遇到客人擋住就會卡殼;現在結合大語言模型和世界模型的服務機器人,能聽懂把水送到302 房間,順便問客人需不需要續杯,還能實時調整路線避開行人,甚至能根據客人的語氣判斷是否需要多送一瓶水。
研究團隊提到的RT-2 機器人,能根據視覺信息自主識別杯子、桌子,再結合語言指令規劃動作,哪怕杯子的位置和之前訓練時不一樣,也能靈活應對。
傳統救災無人機需要人類遠程操控,在復雜環境里很容易失聯,而具身智能無人機,能通過世界模型模擬環境風險,通過大語言模型理解救援指令,自主規劃安全路徑并傳回受災情況。
在工業領域,以前的機械臂,大多是專機專崗,換個生產線就不能用了,現在結合大語言模型和世界模型的機械臂,能通過大語言模型理解生產指令,通過世界模型預判抓取力度,不用重新編程就能切換任務。
具身智能還需要突破哪些難關?
現在的具身智能,還需要大量人類標注的數據或預訓練,未來要實現自主進化,機器人能在新環境里自主探索,從失敗中學習,甚至不用人類干預就能完成長期任務。
具身智能對硬件要求很高,機器人要實時處理多模態數據,還要快速做出反應,這需要更高效的芯片、更低延遲的傳感器。未來的硬件優化,會更注重算法-硬件協同,針對大語言模型和世界模型的計算特點,設計專用加速器;或者通過模型壓縮,讓復雜的具身智能算法能在邊緣設備上運行。
此外,單一機器人的能力有限,未來更需要群體具身智能,可以預見的是,未來場景下會出現多個救災無人機協同搜索,多個工業機械臂配合組裝,甚至機器人和人類協同完成任務。這需要解決群體認知問題,讓機器人知道如何共享環境信息,如何分配任務,如何應對個別機器人故障。
具身智能機器人會直接和人類互動,安全性和可解釋性至關重要。未來需要讓機器人的動作可追溯,它為什么要這么做,萬一出錯了如何快速調整,還要確保它符合人類倫理,比如遇到危險時優先保護人類,而不是完成任務。
未來,當機器人能更自主、更安全、更靈活地在物理世界生存時,通用人工智能的夢想,或許就不再遙遠。而大語言模型和世界模型的結合,正是這條路上最關鍵的一步。
(審核編輯: 光光)
分享