內容來自:@DrJimFan
我們很高興宣布推出Eureka,這是一個開放代理,具有專為超人級別的機器人靈活性而設計的獎勵功能。它就像物理模擬器API世界的Voyager!
Eureka彌合了高級推理(編碼)和低級運動控制之間的差距。它是一個「混合梯度架構」:一個黑匣子,只有推理LLM指示一個白盒,一個可學習的神經網絡。外循環運行GPT-4來細化獎勵函數(沒有梯度),而內循環運行強化學習來訓練機器人控制器(基於梯度)。
Eureka可以通過IsaacGym進行擴展,這是一個GPU加速的物理模擬器,可以將真實世界的速度提高1000倍。在10個機器人的29個任務的基準套件中,尤里卡獎勵了83%的任務比專家編寫的任務更好的任務,平均提高了52%。我們很驚訝尤里卡能夠學習筆旋轉技術,即使是CGI藝術家,一幀一幀地製作動畫也是非常困難的!
Eureka還支持一種新形式的上下文RL HF,將人類操作員反饋融入自然語言中來指導和調整獎勵功能。它可以作為機器人工程師設計複雜的運動行為的強大副駕駛員。
一如既往,開源一切!
在機器人學習中,LLM善於生成高級計劃和中間動作,例如拾取和放置(VIMA、RT-1等),但缺乏複雜的高頻電機控制。
尤里卡!對我們來說(雙關語)是,通過編碼實現的獎勵功能是LLM可以冒險獲得靈巧技能的關鍵門戶。
尤里卡通過在上下文中開發獎勵功能來實現人類水平的獎勵設計。有3個關鍵組件:
- 模擬器環境代碼激活初始的「種子」獎勵功能作為上下文跳轉。
- GPUs上的大規模並行強化學習可以快速評估大量候選獎勵。
- 獎勵反射在上下文中產生有針對性的獎勵突變。
首先,通過使用原始的IsaacGym環境代碼作為上下文,Eureka已經可以生成可用的獎勵計劃,而不需要任何特定於任務的提醒項目。
這使得Eureka成為一個開放、多才多藝的獎勵設計師,黑客行為最少。
其次,Eureka在每個進化步驟都會生成許多候選獎勵,然後使用完整的RL訓練周期對其進行評估。通常情況下,這非常緩慢,可能需要幾天甚至幾周的時間。
得益於英偉達的原生運算處理器機器人訓練平台IsaacGym( https://developer.nvidia.com/isaac-gym ),我們能夠擴大規模,與實時相比,該平台將模擬速度提高了1000倍。內部RL循環現在可以在幾分鐘內完成!
最後,Eureka依賴於獎勵反射,這是由RL訓練的自動文本摘要。得益於GPT-4出色的上下文代碼修復功能,Eureka能夠執行有針對性的獎勵突變。
如果您想了解更多信息,可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝
代碼庫: http://eureka-research.github.io
論文: http://arxiv.org/abs/2310.12931
代碼: http://github.com/eureka-research/Eureka
輸油管: