想象一下这样的场景:你正在使用 Claude 或 ChatGPT 处理工作,突然收到一张包含重要文字信息的图片。传统做法是手动复制图片中的文字,或者使用第三方 OCR 工具识别后再粘贴到对话中。这个过程既繁琐又打断思路。
如果 AI 助手能够直接”看懂”图片里的文字,那会怎样?
这就是 RapidOCR MCP Server 想要解决的问题。
🤔 什么是 MCP?为什么它很重要?
MCP(Model Context Protocol,模型上下文协议)是 Anthropic 推出的一种开放协议,旨在标准化 AI 助手与外部工具、数据源之间的连接方式。
简单来说,MCP 就像是 AI 世界的”USB 接口”:
- 以前:每个 AI 助手都有自己的插件系统,互不兼容
- 现在:遵循 MCP 协议的工具可以被任何支持 MCP 的 AI 助手使用
这意味着,一旦你配置好了 RapidOCR MCP Server,Claude、ChatGPT、Cursor 等支持 MCP 的 AI 助手都能直接使用它的 OCR 功能。
🚀 RapidOCR MCP 的核心特性
1. 多模式支持,灵活部署
RapidOCR MCP 支持三种运行模式,适应不同场景:
| 模式 | 适用场景 | 启动方式 |
|---|---|---|
| MCP stdio | 本地 AI 助手(如 Claude Desktop) | uvx rapidocr-mcp |
| FastAPI HTTP | 远程服务、Web 应用 | uv run rapidocr-mcp --mode fastapi |
| streamable-http | 实时流式处理 | 内置支持 |
2. 多种输入方式,无所不能
无论你的图片在哪里,RapidOCR MCP 都能处理:
- 本地文件路径:直接读取电脑上的图片
- Base64 编码:处理内嵌在消息中的图片数据
- URL:自动下载并识别网络图片
- 文件上传:通过 HTTP API 上传图片文件
3. 批量 OCR,效率倍增
需要一次性处理多张图片?ocr_batch 工具可以批量识别,大幅提升工作效率。
4. 智能图像预处理
内置多种图像增强功能,提升识别准确率:
- 自动增强:调整对比度和锐度
- 自动旋转:基于 EXIF 信息修正图片方向
- 二值化:将彩色/灰度图转换为黑白,优化文字识别
5. 多种输出格式
根据使用场景选择最合适的输出格式:
- plain:纯文本,最简单直接
- json:结构化数据,包含坐标和置信度
- markdown:适合文档整理
- structured:完整结构化信息,便于程序处理
6. 企业级安全与监控
- 路径白名单:限制可访问的文件路径,防止越权访问
- API 密钥:HTTP 模式下的身份验证
- CORS 支持:安全的跨域配置
- 审计日志:记录所有 OCR 请求
- Prometheus 指标:监控请求量、延迟、错误率
- OpenTelemetry 追踪:分布式链路追踪
🛠️ 技术架构解析
核心组件
┌─────────────────────────────────────────────────────────────┐
│ RapidOCR MCP Server │
├─────────────────────────────────────────────────────────────┤
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ MCP Server │ │ FastAPI HTTP │ │ Registry │ │
│ │ (stdio) │ │ Server │ │ (Engines) │ │
│ └──────┬───────┘ └──────┬───────┘ └──────┬───────┘ │
│ │ │ │ │
│ └──────────────────┼──────────────────┘ │
│ ▼ │
│ ┌──────────────────┐ │
│ │ OCR Service │ │
│ │ (Singleton) │ │
│ └────────┬─────────┘ │
│ ▼ │
│ ┌──────────────────┐ │
│ │ RapidOCR Engine │ │
│ │ (ONNX Runtime) │ │
│ └──────────────────┘ │
└─────────────────────────────────────────────────────────────┘
为什么选择 RapidOCR?
RapidOCR 是一个基于 ONNX Runtime 的高性能 OCR 引擎,相比传统 OCR 方案有以下优势:
- 速度快:ONNX Runtime 优化带来极致推理性能
- 准确率高:基于深度学习模型,中英文识别效果出色
- 轻量级:模型文件小,部署方便
- 跨平台:支持 Windows、macOS、Linux
📦 快速开始
方式一:全局安装(推荐)
使用 uvx 一键运行,无需手动安装依赖:
uvx rapidocr-mcp
方式二:pip 安装
pip install rapidocr-mcp
rapidocr-mcp
配置 Claude Desktop
编辑配置文件(Windows: %APPDATA%\Claude\claude_desktop_config.json):
{
"mcpServers": {
"rapidocr": {
"command": "uvx",
"args": ["rapidocr-mcp"]
}
}
}
重启 Claude Desktop 后,你就可以直接让 Claude 识别图片中的文字了!
💡 使用示例
示例 1:识别本地图片
直接告诉 Claude:
“请帮我识别这张图片中的文字:/Users/myname/Documents/invoice.png”
Claude 会自动调用 ocr_by_path 工具,返回识别结果。
示例 2:识别网络图片
“这张图片里写了什么?https://example.com/document.jpg”
Claude 会调用 ocr_by_url 工具,自动下载并识别。
示例 3:批量处理
“请帮我识别这个文件夹里所有图片的文字:/Users/myname/Documents/scanned/”
Claude 会调用 ocr_batch 工具批量处理。
🔧 高级配置
通过环境变量自定义行为:
# 设置识别语言(ch=中文+英文,en=英文)
export RAPIDOCR_LANG=ch
# 设置日志级别
export RAPIDOCR_LOG_LEVEL=INFO
# 启用 API 密钥验证(HTTP 模式)
export RAPIDOCR_API_KEY=your-secret-key
# 配置路径白名单
export RAPIDOCR_PATH_WHITELIST=/home/user/documents,/tmp
# 设置最大图片尺寸(字节)
export RAPIDOCR_MAX_IMAGE_SIZE=10485760
🐳 Docker 部署
对于生产环境,可以使用 Docker 快速部署:
docker-compose -f docker/docker-compose.yml up
服务启动后,可以通过 HTTP API 访问:
curl -X POST http://localhost:8080/ocr/path \
-F "path=/app/sample.png" \
-F "output_format=json"
🎯 应用场景
1. 个人知识管理
将纸质笔记、书籍扫描件转换为可搜索的文本,导入 Obsidian、Notion 等知识库。
2. 自动化办公
批量处理发票、合同、报表,提取关键信息填入表格或数据库。
3. 辅助开发
识别截图中的代码、错误日志,让 AI 助手直接分析和修复。
4. 内容创作
提取图片中的文案、数据,用于写作、报告、演示文稿。
5. 无障碍辅助
帮助视障用户”阅读”图片中的文字内容。
🔮 未来规划
- 支持更多 OCR 引擎(Tesseract、PaddleOCR 等)
- 表格识别与结构化输出
- 手写体识别优化
- 多语言支持扩展
- 模型量化与边缘设备部署
🤝 参与贡献
RapidOCR MCP 是一个开源项目,欢迎各种形式的贡献:
- 提交 Issue 报告 bug 或建议
- 提交 Pull Request 改进代码
- 完善文档和教程
- 分享给更多需要的人
项目地址:https://github.com/bitfarer/rapidocr-mcp
📄 许可证
MIT License - 你可以自由使用、修改和分发本项目。
让 AI 真正”看懂”世界,从 RapidOCR MCP 开始。