FFmpeg新增af_whisper工具，实现高效音频转文本与实时ASR功能

拿铁不加冰

原创

2025-08-14

FFmpeg 是一个广受欢迎的开源多媒体处理框架，近日其新增了一项名为 af_whisper 的音频处理工具，实现了在 FFmpeg 体系内直接进行自动语音识别（ASR）的功能。

该工具基于 whisper.cpp 库开发，引入了人工智能模型，使得音频内容可灵活转换为文本内容。用户可根据需要选择不同的 AI 模型、指定语音识别的语言，并设定输出格式，如文本、SRT 或 JSON 等常见形式。此外，该工具不仅适用于已有的音频文件，也可用于实时音频流的处理。同时，它还集成了语音激活检测（VAD）功能，有助于提升识别的准确率和处理效率。

值得关注的是，该工具支持 GPU 加速运算，显著提升了语音识别的速度。对于使用者而言，这一改进意味着无需再依赖外部复杂的多步骤处理流程，现在只需通过简洁的命令行操作，即可在一个统一的工作流程中完成音频识别任务。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



HUAWEI Mate 80(12GB/256GB)

HUAWEI Mate 80(12GB/256GB)

209人评分

80%好评

iQOO 15 Ultra（16GB/256GB）

iQOO 15 Ultra（16GB/256GB）

6人评分

99%好评

OPPO Find X9 Pro(12GB/256GB)

OPPO Find X9 Pro(12GB/256GB)

423人评分

99%好评

真我Neo8(12GB+256GB)

真我Neo8(12GB+256GB)

328人评分

80%好评

Redmi Turbo 5 MAX(12GB/256GB)

Redmi Turbo 5 MAX(12GB/256GB)

348人评分

80%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具