以下內容摘自原文翻譯:
阿里與北京交通大學的Mobile-Agent-v2發布了Mobile-Agent-v2,這是一款移動終端操作助手,通過多代理協作實現有效導航。它通過多代理協作實現行動裝置的自動化操作和視覺感知。功能,允許人工智慧模擬點擊、滑動、輸入等操作,像真人一樣控制您的手機,從而執行各種任務。
移動終端操作任務日益成為流行的多模式人工智慧應用場景。當前的多模式大型語言模型(MLLM)受到訓練數據的限制,缺乏有效充當操作助手的能力。
相比之下,通過工具調用增強的基於MLLM的代理正在逐漸應用於這種場景。
然而,在現有工作的單代理架構下,移動終端操作任務中的兩大導航挑戰(任務進度導航和焦點內容導航)已變得非常複雜。這是由於過多的令牌序列和交織的文本圖像數據格式限制了性能。
為了有效解決這些導航挑戰,我們提出了Mobile-Agent-v2,這是一種用於移動終端操作輔助的多代理架構。
該架構包括三個代理:規劃代理、決策代理和反射代理。
規劃代理生成任務計劃,使歷史操作的導航更加高效。為了保持焦點,我們設計了一個存儲單元,該單元可以隨著任務的進展而更新。
此外,為了糾正錯誤操作,反射代理會觀察每個操作的結果並相應地處理任何錯誤。
實驗結果表明,與Mobile-Agent的單代理架構相比,Mobile-Agent-v2的任務完成率提高了30%以上。該代碼在此https URL上是開源的
如果您想了解更多信息,可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝
論文:https://arxiv.org/abs/2406.01014
Github:https://github.com/X-PLUG/MobileAgent
輸油管: