Faster-Whisper是OpenAI官方Whisper語音轉文本模型的高性能優化版本,它可以將語音轉錄速度提高4倍,同時減少中央處理器/圖形處理器內存占用,同時保持相同的識別準確性-基準數據顯示,它優於原來的Whisper(例如,Faster-Whisper在圖形處理器環境中轉錄13分鐘的音頻僅需1分03秒,而原始版本則需2分鐘)。23秒)。
您可以通過pip start faster-whisper進行安裝(無需依賴FFmpeg)並僅使用幾行簡單的Python代碼(例如,WhisperModel(「large-v3」).轉錄(「audio.mp3」))以實現時間戳音頻分割。使用該庫的核心優勢是為實時應用場景提供快速高效的語音轉文本功能,大大節省了長音頻文件或批量音頻處理的時間和資源成本。
如果您使用OpenAI的Whisper進行語音轉錄(ASB),您可能會遇到兩種類型的痛點: 轉錄速度不夠快 和 視頻存儲器/存儲器使用率高.
這就是 CLARRAN/更快的耳語 項目旨在解決: 使Whisper推理更快、資源效率更低,同時試圖保持相同的轉錄準確性.
到底是什麼?
一句話: faster-whisper是OpenAI Whisper的「推理連結重新實現」,底層被替換為高性能Transformer推理引擎CTranslate 2。
可以理解為:
- 低語者仍然是低語者(儘量不要移動模型能力不變的部分)
- 但「如何運行」的執行引擎更多的是工程優化(更快、更低的占用率)
REAUTE項目中直接給出的目標是:高達 在相同準確性下,記憶力較低的情況下,比openai/whisper快約4倍;它還支持 8-比特量化 以進一步加速/節省內存。
為什麼更快?
核心在於兩點:
1)CTranslate 2:專門為變形金剛加速推理而設計的引擎
CTranslate2專為高效推理而設計(C++實現,對推理進行了高度優化),並提供了Whisper模型推理接口(包括編碼、對齊、語言概率等)。
2)量化+批量處理:最大限度地實現「快速計算」
- 8-位量化(處理器/處理器): 在許多情況下,內存/內存節省更多,速度更快。
- 該項目還強調優化方向,例如版本疊代中的批量推理。
的理想選擇 這些場景:
- 本地批量轉錄:播客、課程錄音、會議錄音是一堆要運行的文件
- 提供轉錄服務/API:想要更高的吞吐量和更低的機器成本
- 機器沒那麼「豪華」:想用更少的VRM/內存運行更大的型號
- 需要可控的工程參數:量化、線程、設備、批處理策略等
如果追求「極低門檻,只需安裝即可運行」,OpenAI/Whisper也可以使用;但要將其用作穩定的生產組件,快速耳語通常更舒服。
模型從哪裡來?
快速耳語的常見途徑是直接使用 已轉換為CTranslate2格式 在Hugging Face上(例如large-v3的轉換版本)。
這一點至關重要: 這不是關於「只是接受Whisper重量並直線運行」,而是關於匹配CTranslate 2的格式/加載方法.
最小可用
安裝:
pip安裝更快的耳語
最小的Python示例(將音頻轉換為文本):
來自faster_whisper導入WhisperModel
型號= WhisperModel(「large-v3」,設備=「cuda」,compute_類型=「float 16」)
片段,信息=模型.轉錄(「audio.mp3」,beam_size=5)
print(「languages:」,info. languages,「prob:」,info. languages_probability)
對於分段分段:
print(seg.start、seg.end、seg.text)
提示:如果您是中央處理器或想要節省更多資源,您可以
計算類型替換為int 8(量化)。REAUTE項目明確提到8位量化可以進一步提高效率。
您可能關心的「功能點」
不同的人在使用轉錄時會關心不同的輸出能力,而Faster-whisper等實現通常會讓「工程中常用的功能」更加方便,例如:
- 語言識別/語言概率 (used自動確定正在使用的語言)
- VAR(語音活動檢測)過濾:跳過靜音/非語音段,降低「空白無意義」的可能性,同時提高效率(項目發布中也提到了VAR/特徵提取速度)。
(Note:更複雜的要求,例如「說話者分離/與詞級對齊」通常需要與其他項目/管道結合完成;但快速耳語本身更像是一個「轉錄引擎」。
如何選擇其他Whisper變體?
大致有三個主要思想流派:
- OpenAI/Whisper Original:最「參考實現」,易於理解,但不一定是最快/最經濟的。
- 快速耳語(CTranslate2路由): 部分工程和吞吐量,具有更強的量化/資源控制。([GitHub][1])
- 其他加速/對齊/揚聲器增強解決方案:例如,整個管道對「單詞級時間戳/對齊/說話者」更重要取決於您是否想要「快速轉錄」但「強大的後處理」。([Modal][4])