據報道,近日,我國科研團隊在機器人算法領域取得重大突破,提出全球首個“力位混合控制算法的統一理論”。

該算法無需依賴力傳感器,就能讓機器人同時學習位置與力的控制,相關任務成功率較只使用位置控制的策略提高了約 39.5%。更值得關注的是,其相關論文目前已斬獲國際機器人學習大會杰出論文獎,這也是該獎項設立以來,首次由全中國籍學者團隊摘得。
科研人員介紹,當前廣泛應用的視覺-語言-動作模型(VLA),在應對現實生活中的諸多任務時,往往會顯得“力不從心”,核心問題就在于這些任務大多涉及復雜的接觸場景。比如,擦黑板時,機械臂必須既貼合表面又保持適當的壓力;開關柜門,需精準感知內部的推拉彈簧結構。機器人需要的不僅是“走到哪里”“手伸到哪里”,還需要理解“該用多大的力”。而在沒有力位混合控制算法前,這些都需要通過力傳感器來解決。
獲悉,通研院提出首個統一的力位混合控制算法,能夠在無需力傳感器的條件下,同時學習位置與力的控制。該研究通過強化學習,訓練策略從機器人歷史狀態中估計力,并借助位置與速度調整進行補償,從而模擬多種位置、力指令及外部擾動。該策略可實現位置跟蹤、施力、力跟蹤和柔順交互等多種操作行為。此外,力估計模塊引入的接觸信息提升了基于軌跡的模仿學習效果,在四項接觸豐富的操作任務中,成功率比僅使用位置控制的策略提高約 39.5%。
本研究提出了 UniFP(Unified Force and Position Control Policy)。這是足式機器人第一個能夠在單一框架下統一處理力與位置的控制算法。它的核心靈感來自阻抗控制。阻抗控制的思想是把機器人末端執行器與環境之間的交互視作一個彈簧–阻尼–質量系統,通過控制偏差來同時調節位置與力。
在 UniFP 中,只考慮末端執行器低速移動的問題,忽略速度和加速度項,把期望的位置、位置指令和力指令、外部的接觸力統一寫進了一個公式,讓策略既能完成軌跡跟隨,又能根據接觸情況自動調節。同時通過一個力估計器,利用機器人歷史狀態信息和動作信息估計出受到的合外力。這樣一來,機器人不再是“機械地走完路徑”,而是能夠感知并主動對環境施加力,回應環境。
該研究在 Unitree B2-Z1 四足操控平臺和 Unitree G1 人形機器人上開展了七項實驗任務。在擦黑板任務中,位置控制的策略要么擦不干凈,要么用力過大,而 UniFP 能保持穩定的接觸壓力,把黑板徹底擦干凈。在開關柜門任務中,視覺方法根本無法識別微小的推拉式彈簧,而 UniFP 通過力估計器準確地觸發開關。在抽屜被遮擋的場景下,基線方法成功率急劇下降到 0.3,而 UniFP 借助力感知將成功率提升到 0.76。
(審核編輯: 光光)
分享