想象一下这样的场景:你有一段长达一小时的会议录音,需要整理成文字纪要。传统做法是打开某个在线转录服务,把音频文件上传上去,等待处理完成后再下载结果。这个过程不仅耗时,还意味着你的语音数据被上传到了第三方服务器。
如果 AI 助手能够直接在本地帮你完成语音转文字,而且你的音频文件永远不会离开自己的电脑,那会怎样?
这就是 Whisper MCP 想要解决的问题。
🤔 什么是 MCP?为什么它很重要?
MCP(Model Context Protocol,模型上下文协议)是 Anthropic 推出的一种开放协议,旨在标准化 AI 助手与外部工具、数据源之间的连接方式。
简单来说,MCP 就像是 AI 世界的”USB 接口”:
- 以前:每个 AI 助手都有自己的插件系统,互不兼容
- 现在:遵循 MCP 协议的工具可以被任何支持 MCP 的 AI 助手使用
这意味着,一旦你配置好了 Whisper MCP,Claude、ChatGPT、Cursor 等支持 MCP 的 AI 助手都能直接使用它的语音转文字功能。
🚀 Whisper MCP 的核心特性
1. 本地优先,隐私无忧
Whisper MCP 最与众不同的地方在于:所有处理都在你的电脑上完成。
- 音频文件不会上传到任何服务器
- 不需要联网也能使用
- 你的语音数据完全由自己掌控
对于那些处理敏感会议、个人隐私录音或商业机密的用户来说,这是至关重要的安全保障。
2. 双后端架构,跨平台支持
无论你使用什么操作系统,Whisper MCP 都能良好运行:
| 平台 | 后端引擎 | 加速方式 |
|---|---|---|
| macOS | whisper.cpp | Metal / CoreML |
| Linux | whisper.cpp / faster-whisper | CUDA |
| Windows | faster-whisper | CUDA / CPU |
在 macOS 上,它甚至能利用 Apple Silicon 的神经网络引擎,实现超过 10 倍实时的转录速度。
3. 自动硬件加速
不需要手动配置,Whisper MCP 会自动检测并利用最佳的硬件加速:
- 有 NVIDIA 显卡?自动使用 CUDA 加速
- 用 Apple Silicon Mac?自动启用 Metal 或 CoreML
- 只有 CPU?也能流畅运行,自动选择最优方案
4. 高质量转录模型
默认使用 OpenAI 的 large-v3-turbo 模型,这是目前 Whisper 系列中质量与速度最平衡的版本:
| 模型 | 大小 | 准确度 | 适用场景 |
|---|---|---|---|
| large-v3-turbo | ~1.6 GB | 最高 | 默认推荐 |
| large-v3-turbo-q8_0 | ~874 MB | 高 | 速度与质量平衡 |
| large-v3-turbo-q5_0 | ~574 MB | 良好 | 追求速度 |
如果电脑配置有限,也可以选择 medium、small 等更轻量的模型。
5. 多种音频格式支持
无需手动转换格式,直接支持:
- MP3、WAV、M4A、WEBM
- 以及更多常见音频格式
内置的 ffmpeg 集成会自动处理格式转换和音频预处理。
6. 时间戳与分段输出
转录结果不仅包含文字,还能提供:
- 段落级时间戳:知道每句话在音频中的位置
- 词级时间戳(可选):精确到每个字的出现时间
- 支持输出为 JSON、纯文本 或 SRT 字幕 格式
7. 长音频智能分段
面对一小时以上的长录音?transcribe_with_split 工具会自动将音频分段处理,避免内存不足,同时保证转录质量。
🛠️ MCP 工具一览
配置完成后,你的 AI 助手可以直接调用以下工具:
transcribe — 转录音频文件
告诉 AI:“帮我转录这段录音:/Users/myname/Documents/meeting.mp3”
AI 会自动调用转录工具,返回带有时间戳的文字内容。
transcribe_with_split — 长音频分段转录
适合处理播客、会议记录、访谈等长音频内容。
get_model_info — 查看当前模型信息
了解当前使用的后端引擎、模型版本和运行设备。
check_health — 服务健康检查
确认 Whisper MCP 服务是否正常运行。
📦 快速开始
macOS 一键启动
最简单的方式是使用提供的启动脚本:
chmod +x scripts/start_macos.command
open scripts/start_macos.command
这个脚本会自动完成环境检查、依赖安装、模型下载和启动服务。
Windows 全局命令
使用 uv 工具安装后,可以在任何目录直接运行:
uv tool install --editable .
whisper-mcp --check
配置 Claude Desktop
编辑配置文件(Windows: %APPDATA%\Claude\claude_desktop_config.json):
{
"mcpServers": {
"whisper": {
"command": "/path/to/venv/bin/python",
"args": ["-m", "whisper_mcp.main"],
"cwd": "/path/to/whisper-mcp"
}
}
}
重启 Claude Desktop 后,你就可以直接让 Claude 帮你转录音频了!
💡 使用示例
示例 1:转录本地音频
“请帮我转录这段会议录音:/Users/myname/Documents/meeting_2025.mp3”
Claude 会自动调用 transcribe 工具,返回完整的文字记录。
示例 2:生成字幕文件
“帮我把这个视频转成 SRT 字幕:/Users/myname/Documents/video.mp4”
Claude 会输出标准 SRT 格式的字幕文件,可直接导入视频编辑软件。
示例 3:转录外语内容
“这段日语播客讲了什么?/Users/myname/Documents/podcast_jp.m4a”
指定语言代码后,Whisper MCP 会自动识别并转录。
🔧 高级配置
通过环境变量或 .env 文件自定义行为:
# 设置默认语言
LANGUAGE=zh
# 选择模型
MODEL_NAME=large-v3-turbo
# 启用 GPU 加速
USE_GPU=true
# CPU 线程数
THREADS=8
# 日志级别
LOG_LEVEL=INFO
🎯 应用场景
1. 会议记录整理
将会议录音直接转录成文字,快速生成会议纪要,无需手动记录。
2. 播客与视频字幕
为自媒体内容自动生成字幕,支持导出 SRT 格式,直接用于视频制作。
3. 访谈内容整理
记者、研究者可以将采访录音快速转成文字稿,方便后续编辑和引用。
4. 个人语音笔记
随手录下的想法、灵感,让 AI 帮你整理成结构化的文字笔记。
5. 学习资料处理
将在线课程的音频、讲座录音转成文字,方便搜索和复习。
🔮 未来规划
- 支持实时流式转录
- 说话人分离(Diarization)
- 更多输出格式支持
- 模型热切换
- 批量音频处理优化
🤝 参与贡献
Whisper MCP 是一个开源项目,欢迎各种形式的贡献:
- 提交 Issue 报告 bug 或建议
- 提交 Pull Request 改进代码
- 完善文档和教程
- 分享给更多需要的人
项目地址:https://github.com/bitfarer/whisper-mcp
📄 许可证
MIT License - 你可以自由使用、修改和分发本项目。
让 AI 真正”听懂”世界,从 Whisper MCP 开始。