它可以通過理解用戶的自然語言指令和屏幕的視覺內容來自動執行一系列複雜的任務。
例如,「刪除Word文檔中的所有圖片」或「將新幻燈片添加到PowerPoint文檔中。"
它結合了GPT 4-V,能夠理解Windows應用程式的圖形用戶界面(圖形用戶界面)並執行操作。
不明飛行物可以在Windows應用程式中執行各種操作,例如點擊按鈕、填寫表格、瀏覽文件等,就像一個人使用滑鼠和鍵盤來操作計算機一樣。
視頻演示文稿是:刪除PowerPoint演示文稿上的所有評論。
主要能力:
1.跨應用程式操作:不明飛行物可以在Windows作業系統中的多個應用程式之間無縫導航和操作。這意味著它可以根據任務的要求在不同的應用程式中執行一系列操作,例如從Word文檔中提取信息,然後使用該信息在Outlook中編寫和發送電子郵件。
2.自然語言命令執行:用戶可以通過自然語言命令告訴不明飛行物需要完成哪些任務。不明飛行物理解這些指令,並將其轉換為特定的圖形用戶界面操作,無需用戶手動干預。
3.自動控制交互:UFO包括一個控制項交互模塊,可以將視覺模型識別的動作轉換為應用程式控制項的實際操作。該功能允許不明飛行物自動點擊應用程式中的按鈕、輸入文本等。
4.應用選擇:UFO使用雙代理框架中的應用程式選擇代理(AppAgent)來確定哪個應用程式最適合完成用戶的請求。這包括在任務需要時切換到不同的應用程式。
5.行動選擇和執行:操作選擇代理(ActAgent)負責選擇和執行所選應用程式中的特定操作,直到任務完成。它使用屏幕截圖和控制信息來確定前進的最佳步驟。
6.多模式輸入處理:UFO可以處理和解析圖像(屏幕截圖)和文本信息,以了解當前GUI狀態並做出決策。
7.自定義任務和控制:UFO具有高度可擴展性,允許用戶設計和定製特定任務的動作和控制,增強其在不同應用程式和使用場景中的通用性和靈活性。
工作原理:
UFO(UI聚焦代理)基於先進的視覺語言建模技術(特別是GPT-Vision)和獨特的雙代理框架,使其能夠在Windows作業系統中理解和執行圖形用戶界面(圖形用戶界面)任務。以下是不明飛行物工作原理的詳細解釋:
1.雙代理框架
雙代理架構:UFO由兩個主要代理AppAgent和ActAgent組成,它們負責選擇和切換應用程式,並分別在這些應用程式中執行特定操作。
AppAgent:負責決定需要啟動或切換到哪個應用程式才能完成用戶請求。它通過分析用戶的自然語言命令和當前桌面的屏幕截圖來做出選擇。確定最合適的應用程式後,AppAgent會制定全球計劃來指導任務的執行。
動作選擇代理(ActAgent):選擇應用程式後,ActAgent在應用程式中執行特定操作,例如點擊按鈕、輸入文本等。ActAgent利用應用程式的屏幕截圖和控制項信息來確定最合適的下一步動作,並通過控制項交互模塊將這些動作轉換為應用程式控制項上的實際動作。
2.控制交互模塊
不明飛行物的控制交互模塊是將代理識別的動作轉化為應用程式中實際執行的關鍵組件。該模塊使不明飛行物能夠直接與應用程式的圖形用戶界面元素交互,在無需人為干預的情況下執行點擊、拖動、文本輸入等操作。
3.多模式輸入處理
不明飛行物能夠處理多種類型的輸入,包括文本(用戶的自然語言指令)和圖像(應用程式的屏幕截圖)。這使得不明飛行物能夠了解當前的圖形用戶界面狀態、可用的控制項及其屬性,並做出準確的操作決策。
4.用戶請求的解決
當收到用戶的自然語言指令時,UFO首先解析指令以確定用戶的意圖和需要完成的任務。然後,它將任務分解為一系列子任務或操作步驟,由AppAgent和ActAgent順序執行。
5.應用程式之間的無縫切換
如果完成用戶請求需要操作多個應用程式,UFO可以在這些應用程式之間無縫切換。它使用AppAgent決定何時以及如何切換應用程式,並使用ActAgent在每個應用程式中執行特定操作。
6.將自然語言命令映射到GUI操作
UFO的核心功能之一是將用戶的自然語言命令映射到特定的圖形用戶界面操作。此過程涉及了解命令的意圖、識別相關的圖形用戶界面元素以及生成和執行操作來操縱這些元素。
這樣,不明飛行物就可以自動完成從文檔編輯、信息提取到電子郵件寫入和發送的一系列複雜任務,大大提高了用戶在Windows作業系統中工作的效率和便利性。
GitHub:https://github.com/microsoft/UFO
論文:https://arxiv.org/abs/2402.07939
案例研究:使用來自多個來源的文本來編寫電子郵件。
在本例中,UFO可以在Word、圖片查看器和電子郵件客戶端等多個應用程式之間無縫切換和操作,展示了其處理跨應用程式任務的能力。
展示UFO跨應用體驗的多功能性和高效性!
視頻: