faster-whisper：让语音转文字跑得更快

Watch this video on YouTube

Faster-Whisper 是 OpenAI 官方 Whisper 语音转文字模型的高性能优化版本，在保持同等识别准确率的前提下，语音转录速度提升最高达 4 倍，同时还能降低 CPU/GPU 内存占用 —— 基准测试数据显示其性能优于原版 Whisper（例如：在 GPU 环境下转录 13 分钟的音频，Faster-Whisper 仅需 1 分 03 秒，而原版需 2 分 23 秒）。
你可通过 pip install faster-whisper 完成安装（无需依赖 FFmpeg），仅需几行简单的 Python 代码（如 WhisperModel(“large-v3”).transcribe(“audio.mp3”)）就能实现带时间戳的音频分段转录。使用该库的核心优势在于：为实时应用场景提供快速、高效的语音转文字能力，大幅节省长音频文件或批量音频处理的时间与资源成本。

如果你用过 OpenAI 的 Whisper 做语音转写（ASR），大概率会遇到两类痛点：转写速度不够快、显存/内存占用偏高。
SYSTRAN/faster-whisper 这个项目要解决的就是这件事：在尽量保持同等转写准确度的前提下，让 Whisper 推理更快、更省资源。

它到底是什么？

一句话：faster-whisper 是对 OpenAI Whisper 的“推理链路重实现”，底层换成了 CTranslate2 这个高性能 Transformer 推理引擎。

可以把它理解成：

Whisper 还是那个 Whisper（模型能力不变的那部分尽量不动）
但“怎么跑起来”的那套执行引擎更偏工程优化（更快、占用更低）

项目 README 里直接给出的目标是：在同等准确度下，最多可比 openai/whisper 快到约 4 倍，并且内存更低；同时还支持 8-bit 量化进一步提速/省内存。

为什么它会更快？

核心在两点：

1）CTranslate2：专门为 Transformer 推理加速的引擎

CTranslate2 本身就是为了高效推理设计的（C++ 实现、针对推理做了大量优化），并且提供 Whisper 模型推理接口（包括编码、对齐、语言概率等）。

2）量化 + 批处理：把“算得快”发挥到极致

8-bit 量化（CPU/GPU）：更省显存/内存，很多场景下还能更快。
项目在版本迭代中也在强调 **batched inference（批量推理）**等优化方向。

非常适合这些场景：

本地批量转写：播客、课程录音、会议录音一堆文件要跑
做转写服务/API：希望吞吐更高、机器成本更低
机器没那么“豪华”：想在较小显存/内存下跑更大的模型
需要可控的工程参数：比如量化、线程、设备、批处理策略等

如果追求“极致低门槛、随便装就跑”，openai/whisper 也能用；但想把它用成一个稳定的生产组件，faster-whisper 通常更舒服。

模型从哪来？

faster-whisper 常用的一条路线是直接用 Hugging Face 上 已经转换成 CTranslate2 格式的模型（比如 large-v3 的转换版本）。
这点很关键：它并不是“随便拿个 Whisper 权重就直接跑”，而是要匹配 CTranslate2 的格式/加载方式。

最小可用

安装：

pip install faster-whisper

最小 Python 示例（把音频转成文字）：

from faster_whisper import WhisperModel

model = WhisperModel("large-v3", device="cuda", compute_type="float16")
segments, info = model.transcribe("audio.mp3", beam_size=5)

print("language:", info.language, "prob:", info.language_probability)
for seg in segments:
    print(seg.start, seg.end, seg.text)

提示：如果你是 CPU 或者想更省资源，可以把 compute_type 换成 int8（量化）。项目 README 明确提到 8-bit 量化可以进一步提升效率。

你可能会关心的“功能点”

不同人用转写会在意不同输出能力，faster-whisper 这类实现通常会把“工程上常用的功能”做得更顺手，比如：

语言识别/语言概率（用于自动判断说的是什么语言）
VAD（语音活动检测）过滤：跳过静音/非语音段，减少“空白处胡编”的概率，也能提升效率（项目 release 里也提到 VAD/特征提取提速）。

（注意：更复杂的“说话人分离/对齐到词级”这类需求，往往要配合别的项目/管线一起做；但 faster-whisper 本身更偏“高效转写引擎”。

其他 Whisper 变体怎么选？

主流思路大致三派：

openai/whisper 原版：最“参考实现”，易理解，但不一定最快/最省。
faster-whisper（CTranslate2 路线）：偏工程与吞吐，量化/资源控制更强。([GitHub][1])
其他加速/对齐/说话人增强方案：比如更重“词级时间戳/对齐/说话人”的整套管线，取决于你要的不是“转写快”而是“后处理强”。([Modal][4])

Github：https://github.com/SYSTRAN/faster-whisper
油管：https://youtu.be/VM8c0-s-cyo

Tags: github, AI音频, AI语音