Mobile-Agent-v2：讓人工智慧控制您的手機像真人一樣執行各種任務

以下內容摘自原文翻譯：

阿里與北京交通大學的Mobile-Agent-v2發布了Mobile-Agent-v2，這是一款移動終端操作助手，通過多代理協作實現有效導航。它通過多代理協作實現行動裝置的自動化操作和視覺感知。功能，允許人工智慧模擬點擊、滑動、輸入等操作，像真人一樣控制您的手機，從而執行各種任務。

移動終端操作任務日益成為流行的多模式人工智慧應用場景。當前的多模式大型語言模型（MLLM）受到訓練數據的限制，缺乏有效充當操作助手的能力。
相比之下，通過工具調用增強的基於MLLM的代理正在逐漸應用於這種場景。
然而，在現有工作的單代理架構下，移動終端操作任務中的兩大導航挑戰（任務進度導航和焦點內容導航）已變得非常複雜。這是由於過多的令牌序列和交織的文本圖像數據格式限制了性能。
為了有效解決這些導航挑戰，我們提出了Mobile-Agent-v2，這是一種用於移動終端操作輔助的多代理架構。
該架構包括三個代理：規劃代理、決策代理和反射代理。
規劃代理生成任務計劃，使歷史操作的導航更加高效。為了保持焦點，我們設計了一個存儲單元，該單元可以隨著任務的進展而更新。
此外，為了糾正錯誤操作，反射代理會觀察每個操作的結果並相應地處理任何錯誤。
實驗結果表明，與Mobile-Agent的單代理架構相比，Mobile-Agent-v2的任務完成率提高了30%以上。該代碼在此https URL上是開源的

如果您想了解更多信息，可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡，請訂閱並點讚。謝謝

論文：https://arxiv.org/abs/2406.01014
Github：https://github.com/X-PLUG/MobileAgent

輸油管：