繁中

Seed-TTC TTC技術詳情

製作的有聲讀物可能會讓喜馬拉雅山的許多主播失業!支持多種語言。

我還沒有看到項目代碼或測試地址,只有論文

摘要

我們引入了Seed-TTC,這是一系列大規模自回歸文本到語音(TTC)模型,能夠生成幾乎與人類語音無法區分的語音。
作為語音生成的基本模型,Seed-TTC在語音上下文學習中表現良好,其在說話人相似度和自然度方面的表現在客觀和主觀評估上與真實人類語音相匹配。
通過微調,我們在這些指標上取得了更高的主觀得分。
Seed-TTC提供對情緒等各種語音屬性的出色控制性,並且能夠在自然環境中為說話者生成高度表達和多樣化的語音。
此外,我們還提出了一種語音分解的自提煉方法,通過讓模型自己學習和改進來提高性能,還提出了一種增強模型魯棒性、說話者相似性和可控性的強化學習方法。
我們還展示了Seed-TTC模型的一種非自回歸(NAR)變體,稱為Seed-TTSDiT,它使用完全基於擴散的架構。
與之前基於NAR的TTC系統不同,Seed-TTSDiT不依賴於估計的音素持續時間,而是通過端到端處理生成語音。
我們證明,該變體在客觀和主觀評估方面實現了與基於語言模型的變體相當的性能,並證明了其在語音編輯中的有效性。

同時支持不同語言之間的語音轉換,幫助跨語言溝通和溝通。
Seed-TTC在多項實驗中表現良好,其生成的語音在自然度和說話者相似度方面與人類語音接近。

如果您想了解更多信息,可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝

論文:
https://bytedancespeech.github.io/seedtts_tech_report/#applications-samples

輸油管:

返回頂端