繁中

CLASI:字節跳動開發的端到端語音同步翻譯系統

CLASI是字節跳動開發的一款高質量的語音同步翻譯系統,類似於專業的人工翻譯。它實時翻譯語音內容,保持高翻譯質量和低延遲。CLASI利用先進的數據策略和多模式檢索技術來處理複雜的術語和不清晰的語音信息。

CLASI根據當前的音頻內容,結合外部知識庫和歷史背景,生成準確且耐故障的翻譯。它在各種測試數據集上表現出色,並且可以傳達更有效的信息。

翻譯策略:CLASI採用創新策略平衡翻譯的準確性和速度,確保翻譯快速準確。
系統架構:系統處理當前音頻數據,檢索相關信息,加載歷史上下文,然後輸出翻譯結果。該過程不斷循環,以確保實時翻譯。
性能:在現實應用中,CLASI的翻譯準確性明顯高於目前可用的最佳商業和開源系統。例如,中英翻譯準確率達到81.3%。

CLASI解決了以下關鍵問題:

平衡翻譯質量和延遲:傳統的語音翻譯系統通常使用涉及多個模型(例如自動語音識別模型、標點符號模型和機器翻譯模型)的串聯繫統,這往往會因錯誤傳播和延遲而影響翻譯質量。CLASI通過模仿人類翻譯者的策略並採用數據驅動的讀寫策略來平衡翻譯質量和延遲,提供高質量的實時翻譯。
域名術語的翻譯:在翻譯過程中,尤其是在專業領域,領域術語的準確翻譯是一個重大挑戰。CLASI使用多模式檢索增強生成(MM-RAG)模塊通過從外部資料庫檢索相關術語和信息來提高翻譯質量,並確保專業術語的準確翻譯。
缺乏訓練數據:同時,翻譯任務數據的稀缺嚴重影響了系統的性能提升。CLASI採用多階段訓練方法,採用大規模預訓練、持續訓練和微調步驟,使模型能夠在少量高質量的人類注釋數據的幫助下模仿專業人類譯者的翻譯行為,提高翻譯的穩健性和質量。
人工評估和自動評估之間的差距:現有的自動評估指標(例如BLEU)可能無法完全反映翻譯的質量,尤其是對於長語音片段。CLASI引入有效信息率(VIP)作為新的評估指標,反映了翻譯系統在真實場景中傳遞有效信息的能力,在該指標上明顯優於現有系統。

如果您想了解更多信息,可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝

項目和演示:https://byteresearchcla.github.io/clasi/
論文:https://byteresearchcla.github.io/clasi/technical_report.pdf

輸油管:

返回頂端