FFmpeg 是一个广受欢迎的开源多媒体处理框架,近日其新增了一项名为 af_whisper 的音频处理工具,实现了在 FFmpeg 体系内直接进行自动语音识别(ASR)的功能。
该工具基于 whisper.cpp 库开发,引入了人工智能模型,使得音频内容可灵活转换为文本内容。用户可根据需要选择不同的 AI 模型、指定语音识别的语言,并设定输出格式,如文本、SRT 或 JSON 等常见形式。此外,该工具不仅适用于已有的音频文件,也可用于实时音频流的处理。同时,它还集成了语音激活检测(VAD)功能,有助于提升识别的准确率和处理效率。
值得关注的是,该工具支持 GPU 加速运算,显著提升了语音识别的速度。对于使用者而言,这一改进意味着无需再依赖外部复杂的多步骤处理流程,现在只需通过简洁的命令行操作,即可在一个统一的工作流程中完成音频识别任务。

评论
更多评论