繁中

Glyph-ByT 5-v2是微軟的開源文本編碼器

升級到V2版本
與之前專注於英語文本的版本相比
Glyph-ByT 5-v2可以支持10種不同語言的準確拼寫,顯著提高多語言文本渲染的準確性和廣度。

以下內容摘自原文:

採用最新的逐步感知偏好學習(SPO)方法,顯著提高視覺美學質量,使生成的圖像更具視覺吸引力。
最近,Glyph-ByT 5在平面設計圖像中實現了高精度的視覺文本渲染性能,但它仍然只專注於英語,在視覺吸引力方面表現相對較差。在這項工作中,我們通過提出Glyph-ByT 5-v2來解決這兩個基本限制,它不僅支持10種不同語言的準確視覺文本渲染,而且還實現了更好的美學質量。

為了實現這一目標,我們做出了以下貢獻:(i)創建一個優質的多語言收件箱文本和圖形設計數據集,其中包含超過100萬份收件箱文本對和1000萬份平面設計圖像文本對,涵蓋其他九種語言,(ii)構建一個包含0個提示的多語言視覺段落基準,每種語言有100個提示,以評估多語言視覺拼寫準確性,以及(iii)利用最新的漸進知覺偏好學習方法來提高視覺審美質量。

通過這些技術的結合,我們提供了功能強大的自定義多語言文本編碼器Glyph-ByT 5-v2和功能強大的美觀圖形生成模型Glyph-SDXL-v2,支持10種不同語言的準確拼寫。考慮到最新的DALLE-3和Ideogram仍在處理多語言視覺文本渲染任務,我們相信我們的工作是一個重大改進。

欲了解更多詳細信息,您可以瀏覽視頻下方的連結
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝

項目地址:https://glyph-byt5-v2.github.io
型號下載:https://huggingface.co/GlyphByT5/Glyph-SDXL-v2

輸油管:

返回頂端