該模型統一了前三種Seamless系列模型,可以實時翻譯100多種語言,延遲不到2秒,在說話者還在說話時開始翻譯。
無縫翻譯不僅是文本轉換,還保持說話者的情感、語氣、語調等,使翻譯出來的演講更加自然、真實。
主要功能:
1.保留原始情感:無縫表達模式專注於在語音到語音翻譯中保持原始語音的表現力,包括語調、情感和風格。保留說話者的語氣和情感。
2.實時翻譯:實時翻譯功能的延遲僅為兩秒左右。與傳統翻譯系統相比,它在說話者仍在說話時開始翻譯,使對話更加流暢和自然。
3.支持多種語言:它支持近100種輸入和輸出語言的自動語音識別和語音到文本翻譯,以及近100種輸入語言和36種輸出語言的語音到語音翻譯。
4.毒性減輕和準確性:在構建人工智慧翻譯系統時,Meta特別注意準確性和避免誤解。他們探討了如何減少翻譯過程中可能發生的錯誤和不恰當內容,這對於確保溝通的質量和安全至關重要。
5.音頻水印技術:為了防止濫用和模仿,Meta還開發了音頻水印技術。該技術允許在不被人耳注意到的情況下嵌入音頻,確保音頻源的可追溯性。
Seamless模型統一了DeliverlessExpressive、DeliverlessStreaming和DeliverlessM4 T v2的功能。專為多語言、表現力和流暢的語音翻譯而設計。
這些型號的主要功能和功能:
DeliverlessM4 T v2:這是大規模多語言和多模式翻譯模型的改進版本。改善語音生成任務的質量和推理延遲。它基於更新的UnitY 2框架,並在更多低資源語言數據上訓練。Deliverless M4 T v2為其他型號提供了基礎。
DeliverlessM4 T v2支持100種語言的最先進的語音到語音和語音到文本翻譯。在同一模型中,它在平均自動語音識別方面也擊敗了Whisper v3,尤其是對於資源較少的語言。
DeliverlessM4 T v2比8月份發布的模型改進了10%,翻譯成英語時比最強的級聯模型改進了17%以上。對於語音到語音翻譯,DeliverlessM4 T v2在翻譯成英語時提高了15%以上,在翻譯成英語時比DeliverlessM4 T(v1)提高了25%。
支持以下任務:
·語音翻譯(S2 ST)
·語音轉文本翻譯(S2 TT)
·文本到語音翻譯(T2 ST)
·文本到文本翻譯(T2 TT)
·自動語音識別(ASR)
無表情:該模型在翻譯過程中保持聲音的風格和節奏。與之前對表達性言語的研究相比,無縫表達專注於一些未充分研究的韻律方面,例如語速和停頓,同時保留了說話者的聲樂風格。
無障礙流媒體:
這是一個流媒體翻譯模型,支持語音輸入和語音/文本輸出。它支持以下任務:
·語音翻譯(S2 ST)
·語音轉文本翻譯(S2 TT)
·自動語音識別(ASR)
該模型利用高效單調多頭注意力(EMMA)機制來生成低延遲目標翻譯,而無需等待完整的源陳述。無障礙流媒體是第一個能夠同時以多種源語言和目標語言進行語音到語音/文本翻譯的模型。
Meta AI還發布了一系列與無縫通信項目相關的元數據、數據和數據對齊工具,以支持研究界。
DeliverlessAlign擴展元數據:包含額外115,000小時的語音和文本對齊數據,加上現有的470,000小時。最新版本的DeliverlessAlign涵蓋更廣泛的語言,從之前的37種增加到76種。就總容量和語言覆蓋範圍而言,該資料庫是迄今為止最大的公共語音/語音和語音/文本平行資料庫。
詳情: https://ai.meta.com/blog/seamless-communication
官方網站: https://ai.meta.com/research/seamless-communication/
論文: https://ai.meta.com/research/publications/seamless-multilingual-expressive-and-streaming-speech-translation/
GitHub:https://github.com/facebookresearch/seamless_communication
在線體驗: https://seamless.metademolab.com/expressive? utm_source=元ai utm_medium=web utm_campaign= fair 10 utm_content=博客