繁中

AppAgent:讓人工智慧模仿人類在手機上操作應用程式

AppAgent可以通過自主學習和模仿人類敲擊和滑動手勢在手機上執行各種任務。

它可以在社交媒體上發布,為您撰寫和發送電子郵件,使用地圖,在線購物,甚至進行複雜的圖像編輯。

AppAgent在50個任務上進行了廣泛測試,涵蓋10個不同的應用程式。

該項目由騰訊和德克薩斯大學達拉斯分校的研究團隊開發。

主要功能:

  • 多模式代理:AppAgent是一個基於大型語言模型的多模式代理,可以處理和理解多種類型的信息(例如文本、圖像、觸摸操作等)。這使它能夠理解複雜的任務並在各種不同的應用程式中執行它們。
  • 直觀的交互:它通過模仿直觀的人類動作(例如點擊和滑動屏幕)與智慧型手機應用程式交互。就像真正的用戶一樣。
  • 自主學習:AppAgent觀察和分析不同應用程式中的用戶界面交互。並學習這些交互模式並將獲得的知識彙編成文檔。
  • 建立知識庫:通過這些交互,AppAgent建立了一個知識庫,記錄了不同應用程式的操作方法和界面布局。然後,該知識庫用於指導代理完成不同應用程式中的任務。

- 執行複雜任務:學習如何操作應用程式後,AppAgent就能夠跨應用程式執行複雜的任務,例如發送電子郵件、編輯圖片或在線購買。

項目和演示: https://appagent-official.github.io
論文: https://arxiv.org/abs/2312.13771
GitHub:https://github.com/mnotgod96/AppAgent

返回頂端