GPT-4能比您更好地教機器人手轉筆技能嗎？

內容來自：@DrJimFan

我們很高興宣布推出Eureka，這是一個開放代理，具有專為超人級別的機器人靈活性而設計的獎勵功能。它就像物理模擬器API世界的Voyager！

Eureka彌合了高級推理（編碼）和低級運動控制之間的差距。它是一個「混合梯度架構」：一個黑匣子，只有推理LLM指示一個白盒，一個可學習的神經網絡。外循環運行GPT-4來細化獎勵函數（沒有梯度），而內循環運行強化學習來訓練機器人控制器（基於梯度）。

Eureka可以通過IsaacGym進行擴展，這是一個GPU加速的物理模擬器，可以將真實世界的速度提高1000倍。在10個機器人的29個任務的基準套件中，尤里卡獎勵了83%的任務比專家編寫的任務更好的任務，平均提高了52%。我們很驚訝尤里卡能夠學習筆旋轉技術，即使是CGI藝術家，一幀一幀地製作動畫也是非常困難的！

Eureka還支持一種新形式的上下文RL HF，將人類操作員反饋融入自然語言中來指導和調整獎勵功能。它可以作為機器人工程師設計複雜的運動行為的強大副駕駛員。

一如既往，開源一切！

在機器人學習中，LLM善於生成高級計劃和中間動作，例如拾取和放置（VIMA、RT-1等），但缺乏複雜的高頻電機控制。

尤里卡！對我們來說（雙關語）是，通過編碼實現的獎勵功能是LLM可以冒險獲得靈巧技能的關鍵門戶。

尤里卡通過在上下文中開發獎勵功能來實現人類水平的獎勵設計。有3個關鍵組件：

模擬器環境代碼激活初始的「種子」獎勵功能作為上下文跳轉。
GPUs上的大規模並行強化學習可以快速評估大量候選獎勵。
獎勵反射在上下文中產生有針對性的獎勵突變。

首先，通過使用原始的IsaacGym環境代碼作為上下文，Eureka已經可以生成可用的獎勵計劃，而不需要任何特定於任務的提醒項目。

這使得Eureka成為一個開放、多才多藝的獎勵設計師，黑客行為最少。

其次，Eureka在每個進化步驟都會生成許多候選獎勵，然後使用完整的RL訓練周期對其進行評估。通常情況下，這非常緩慢，可能需要幾天甚至幾周的時間。

得益於英偉達的原生運算處理器機器人訓練平台IsaacGym（ https://developer.nvidia.com/isaac-gym ），我們能夠擴大規模，與實時相比，該平台將模擬速度提高了1000倍。內部RL循環現在可以在幾分鐘內完成！

最後，Eureka依賴於獎勵反射，這是由RL訓練的自動文本摘要。得益於GPT-4出色的上下文代碼修復功能，Eureka能夠執行有針對性的獎勵突變。

如果您想了解更多信息，可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡，請訂閱並點讚。謝謝

代碼庫： http://eureka-research.github.io
論文： http://arxiv.org/abs/2310.12931
代碼： http://github.com/eureka-research/Eureka

輸油管：