UMI：史丹福大學開發的機器人數據收集和策略學習框架

數據收集是通過手持式抓手和精心設計的界面進行的。
UMI可以直接將人類在複雜環境中的操作技能傳授給機器人，而不需要人類編寫詳細的編程指令。
即人類親自操作演示，收集數據並直接傳輸給機器人，讓機器人快速學習新任務。
UMI集成了精心設計的策略接口，包括推理延遲匹配和相對軌跡動作表示，因此學習的策略不受硬體的限制，可以跨多個機器人平台部署。
UMI提供了一個可攜式、直觀、低成本的數據收集和策略學習框架，允許將不同的人類表現直接轉化為有效的視覺運動策略。該框架特別適合傳統遠程操作難以完成的任務，例如動態、精確、雙手操作和長期遠景任務。

UMI的主要特點和功能：

1.技能轉移：將人類在複雜環境中的操作技能直接傳授給機器人，無需人類編寫詳細的編程指令。
2.數據收集：通過人類直接操作收集機器人學習所需的動態操作數據，包括視覺信息和動作序列。
3.多平台部署：允許通過UMI學習的機器人操作策略部署在不同的機器人硬體平台上，以實現硬體獨立性。
4.提高機器人的操作能力：通過UMI，機器人可以學習執行更複雜、更精確的操作任務，例如雙手協作和精確控制。
5.快速適應新任務：UMI使機器人能夠通過觀察人類操作演示來快速學習新任務，而無需從頭開始編程，從而提高了機器人適應新任務的速度。
6.降低機器人學習成本：通過使用UMI，可以減少機器人學習和部署新任務所需的時間和資源，並降低成本。
7.推動機器人技術在各個領域的應用：UMI的使用拓寬了機器人在家庭、服務、製造等行業的應用範圍，使其能夠更好地服務於人類社會。

UMI關鍵技術和設計理念：

1.硬體設計：UMI使用配備高質量攝像頭（例如GoPro）的手持抓手來在執行任務時捕獲視覺數據。這種設計使數據收集過程簡單直觀，使操作員能夠自然地演示任務，同時捕獲豐富的視覺和操作信息。
手持式抓手：配備柔軟指尖的3D列印平行抓手提高了操作靈活性和安全性。GoPro相機集成到支架中，作為唯一用於在操作期間捕獲視覺信息的傳感器和記錄設備。
魚眼鏡頭：支架上安裝的155度魚眼鏡頭擴大了視野，並確保收集足夠的視覺背景和關鍵深度信息，這對於學習有效的機器人策略至關重要。
側鏡：為了彌補單目攝像機無法直接獲取深度信息的缺點，UMI設計包括側鏡，通過提供隱藏的立體視圖來輔助深度估計。
IMU感知跟蹤：結合GoPro內置的IMU（慣性測量單元）數據，UMI即使在快速移動時，即使由於運動模糊或視覺特徵喪失，也可以保持穩定的跟蹤。

2.與硬體無關的數據收集：
通過使用通用手持式抓手和視覺系統，UMI能夠在不依賴特定機器人硬體的情況下收集數據。這意味著收集的數據可以用於各種機器人系統，提高數據可用性和靈活性。
延遲匹配：UMI通過推理延遲匹配來處理不同硬體（例如流媒體攝像機、機器人控制器、工業抓手）之間的延遲變化，確保觀察流和動作執行之間的時間匹配。
動作表示：使用相對軌跡作為動作表示消除了對精確的全局動作的需要，從而簡化了從人類動作到機器人執行動作的過渡。
擴散政策模型：使用擴散政策模型來處理多模式動作分布，增強策略處理複雜且多樣化的人類演示數據的能力。

3.推理延遲匹配和相對軌跡動作表示：UMI在策略界面中實現推理延遲匹配和相對軌跡動作表示，確保動作的準確性和時間一致性。這對於執行精確且時間敏感的任務至關重要。

4.零級概括能力：通過對不同的人類演示進行訓練，UMI學到的策略可以實現對新環境和對象的零級概括。這意味著機器人能夠在以前從未見過的情況下執行任務，表現出高度的適應性和靈活性。

實際應用驗證：

UMI通過一系列實驗驗證了其方法的有效性，包括動態投擲、精確放置和雙手協作任務。這些實驗不僅證明了UMI策略的概括能力，而且還證明了其在現實世界環境中的應用潛力。

項目和演示：https://umi-gripper.github.io
論文：https://umi-gripper.github.io/umi.pdf
GitHub：https://github.com/real-stanford/universal_manipulation_interface
硬體指南：https://docs.google.com/document/d/1TPYwV9sNVPAi0ZlAupDMkXZ4CA1hsZx7YDMSmcEy6EU/edit? usp=分享
數據收集說明：https://swanky-sphere-ad1.notion.site/UMI-Data-Collection-Tutorial-4db1a1f0f2aa4a2e84d9742720428b4c? pvs=4

視頻：