Google發布Gemini-1.5-Pro開放API

現已在180多個國家/地區上市

增加了原生音頻（語音）理解、文件API、系統指令、SON模式等功能

Gemini模型現在可以直接處理音頻輸入，而不必首先將音頻轉換為文本。

新用例解鎖：音頻和視頻模式

Gemini 1.5 Pro擴展了輸入模式，包括理解Gemini API和Google AI Studio中的音頻（語音）。

此外，Gemini 1.5 Pro還能夠對上傳到Google AI Studio的視頻進行圖像（幀）和音頻（語音）的同時推理，這意味著該模型具有理解和處理視頻內容的能力，不僅可以理解視頻的視覺部分（例如圖像幀），還可以理解音頻部分（例如對話、背景音樂等）。

應用潛力包括：

1.多模式理解：Gemini 1.5 Pro將視頻中的視覺和音頻信息結合在一起，以更全面的內容理解。例如，它可以通過在收聽視頻中的對話或聲音的同時分析視頻幀中的場景和對象來更準確地識別和解釋視頻內容。
2.內容索引和搜索：通過對視頻圖像和音頻的深入理解，Gemini 1.5 Pro可以幫助創建更詳細的內容索引，允許用戶根據有關視頻內容的視覺和聽覺信息進行搜索。
3.增強的互動體驗：通過對視頻的全面理解，可以開發更豐富的交互式應用程式，例如自動生成視頻摘要、基於內容的推薦系統或創建交互式學習和娛樂體驗。
4.視頻內容分析：Gemini 1.5 Pro可用於視頻監控、內容審查、情感分析等場景。通過同時理解視頻和音頻內容，人工智慧可以自動識別視頻中的關鍵事件、情感傾向或特定內容標籤。
5.創意內容生成：對視頻圖像和音頻的全面了解還使Gemini 1.5 Pro能夠在內容創建中發揮作用，例如自動生成視頻字幕、配音或基於給定腳本創建動畫視頻。

Gemini API改進

1.系統說明：通過系統說明引導模型響應，現已在Google AI Studio和Gemini API中提供。定義角色、格式、目標和規則，以指導模型的行為以適應特定用例。
2. JSON模式：指示模型僅輸出JSON對象。該模式支持從文本或圖像中提取結構化數據。您可以從cURL開始，Python SDK支持即將推出。
3.功能調用的改進：現在可以選擇模式來限制模型的輸出並提高可靠性。選擇文本、函數調用或僅選擇函數本身。

新的嵌入模型提高了性能

從今天開始，開發人員將能夠通過Gemini API訪問Gemini的下一代文本嵌入模型。這個新模型文本嵌入-004（Vertex AI中的文本嵌入-預覽-0409）在MTEB基準測試中實現了比所有具有可比維度的現有模型更強的檢索性能。

詳情：https://goo.gle/3xxaUH1
音頻理解：https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb

視頻：