Pegasus-1：真正可以閱讀視頻的大型模型

Twelve Labs推出了Pegasus-1，這是一種先進的視頻語言基礎模型，具有約800億個參數。

它可以處理從10秒到數小時的視頻內容，並理解、識別和解析視頻，以生成更全面、準確的文本描述。

它可以全面了解視頻中的人、物、場景，以及背景音樂、對話等。

主要功能：

1.多模式理解：
Pegasus-1不僅處理視頻中的視覺信息，還理解音頻和語音信息。這意味著它可以更全面地了解視頻內容，包括視頻中出現的人、物體和場景，以及背景音樂、對話等。

2.高效的長視頻處理：
該模型優化了管理和處理不同長度視頻（從短至10秒到數小時）的能力。

3.視頻文本生成：
通過單個API調用，開發人員可以提示Pegasus-1模型從其視頻數據生成特定的文本輸出。這包括但不限於視頻摘要、關鍵點提取、自動生成標籤和標題等。

4.高級績效指標：
在MSR-VTT數據集和視頻描述數據集上，Pegasus-1相對於可用的最先進模型表現出61%和47%的相對改進。

5. API訪問：
Pegasus-1提供了一組靈活的視頻到文本API，可用於各種下游任務。

與許多將視頻理解視為圖像或語音理解問題的方法不同，Twelve Labs採用「視頻優先」策略。

該策略有四個核心原則：高效的長格式視頻處理、多模式理解、視頻原生嵌入以及視頻和語言嵌入之間的深度對齊。

該模型由三個主要組件組成：視頻編碼器、視頻語言對齊模型和語言解碼器。

1.視頻編碼器：負責從視頻中提取視覺、音頻和語音信息並生成視頻嵌入。它評估視頻幀及其時間關係，以在處理音頻信號和語音信息時獲得相關的視覺信息。

2.視頻語言對齊模型：這一步是連接視頻嵌入和語言模型領域的關鍵。它確保語言模型以與理解文本標記類似的方式解釋視頻嵌入。

3.語言解碼器：解碼器利用其廣泛的知識庫，根據輸入用戶提示解釋對齊的嵌入，並將此信息解碼為連貫、易於閱讀的文本。

這三個組件一起訓練，使模型能夠更準確地理解和生成與視頻內容相關的文本。

Twelve Labs收集了超過3億個經過精心策劃的多樣化視頻文本對。這使其成為最大的視頻語言基礎模型培訓視頻文本庫之一。

初始訓練子集：該技術報告基於3500萬個視頻-文本對和超過10億個圖像-文本對的初始訓練運行。該子集約占總數據集的10%。

該數據集不僅規模龐大，而且質量高且多樣化，有助於Pegasus-1在多個評估指標上實現高級性能。

ideo-ChatGPT視頻描述數據集： https://arxiv.org/pdf/2306.05424