繁中

SEED:高級圖像標記器

大型語言模型可以具有視覺和繪圖功能。

該項目由騰訊的AILab-CVC團隊開發。SEED的主要功能是將圖像轉換為一系列離散的視覺代碼。它就像一個「翻譯器」,可以將圖片「翻譯」成特殊的「語言」(視覺代碼),以便機器人能夠理解和處理它。

這些代碼具有一維因果依賴關係和高級語義(SEED將圖像信息轉換為相互之間存在因果關係的代碼序列,例如單詞或文本中的單詞),使它們能夠在與文本相同的模型中進行處理。

項目:https://github.com/AILab-CVC/SEED
論文:https://arxiv.org/abs/2310.01218
演示:即將推出.

[How它有效嗎?]

1.視覺代碼生成:首先,SEED將您提供的圖像轉換為特殊的代碼串(視覺代碼)。這些代碼包含有關圖片的所有重要信息,例如顏色、形狀和對象。
2.與文本對齊:這些視覺代碼按照一定的順序排列,就像句子中的單詞一樣。通過這種方式,機器人可以像處理文本一樣處理代碼。
3.高級理解:更重要的是,這些視覺代碼還包含圖片的「含義」。例如,如果圖片中有一隻狗在跑,那麼這些代碼可以表達「狗」和「跑」的概念。
4.多模式任務:一旦機器人通過SEED理解了這些視覺代碼,它就可以做許多以前無法做的事情,例如描述圖片、回答有關圖片的問題,甚至根據您的描述生成新圖片。

例子:

假設您有一張黃色小狗在草地上玩球的照片。你問機器人:「這是什麼圖片?"

無種子:機器人會說:「抱歉,我看不懂圖片。"
有SEED:SEED將圖像轉換為視覺代碼,然後機器人說:「這是一隻黃色小狗在草地上玩球。"

通過SEED,機器人不僅可以理解文本,還可以理解和生成圖像,使它們變得更加強大和多才多藝。

[集成到大型語言模型]

將SEED與大型語言模型集成可以實現多模式處理能力。這樣的模型不僅可以處理純文本任務,還可以處理圖像字幕、圖像/視頻問答和文本到圖像生成等多模式任務。

SEED-LLaMA:

SEED-LLaMA是一個預訓練的大型語言模型(LLM),集成了SEED標記。該模型在多模式數據上預訓練,並通過指令進行調整(微調)。

特點和性能:

能夠處理多項任務,例如圖像字幕、圖像/視頻問答和文本到圖像生成。

展示多模式生成在多輪環境中的綜合出現能力。

這意味著SEED不僅可以單獨處理圖像或文本,還可以在多輪對話中將兩者結合起來以生成新內容。例如,它可以根據文本描述生成圖像,然後根據新的文本輸入修改圖像。

例子:

假設您首先描述一個「紅蘋果」,SEED生成一個紅蘋果的圖像。然後你說「添加一片綠葉」,SEED就可以在原始的紅蘋果圖像中添加一片綠葉。

實驗結果:

SEED-LLaMA擅長多種多模式任務,包括圖像字幕、圖像/視頻問答和文本到圖像生成。

返回頂端