👁️ GYT-Vision MCP — 为 DeepSeek 赋予"视觉"

为什么需要这个 MCP?
一个真实的问题
很多 Claude Code 用户通过 DeepSeek v4-pro 接入使用,享受其强大的推理能力和长上下文支持。但 DeepSeek 有一个明显的短板——它不具备多模态能力,无法直接识别图片和视频。
当你把一张图片拖入 Claude Code 让 DeepSeek 分析时,它只能看到文件路径,无法理解图像内容。每次遇到这个问题,对话就会中断,你需要:
- 手动切换模型
- 或者打开其他工具单独分析图片
- 然后把结果粘贴回来继续对话
体验极差。
已有的尝试
GitHub 博主 @asuojun 发布了一个 claude-vision-skill,试图通过 Skill 机制在遇到图片时自动切换多模态模型来处理。这个思路很好,但在实际使用中经常出现图片无法正常触发 Skill 的情况,导致识别流程未能启动。
根本原因在于:Skill 的触发依赖 Claude Code 的上下文判断,当判断失误时,图片就被忽略了。
我们的方案
GYT-Vision MCP 采用了一个根本性的不同架构:MCP 工具协议。
它不依赖 Claude Code 的"自觉判断",而是直接注册为 MCP Server——当你的对话中出现图片时,你可以直接让 Claude 调用 analyze_image 工具。这个工具会:
- 接收本地图片路径或 URL
- 将图片发送给阿里云的千问 VL 多模态大模型(Qwen-VL)
- 返回详细的图片中文描述
- Claude(DeepSeek)收到文字描述后,继续完成你的分析需求
┌──────────────────────────────────────────────────────────┐
│ Claude Code │
│ ┌──────────────────────────────────────────────┐ │
│ │ 用户: "帮我分析这张图" + 🖼️ photo.jpg │ │
│ │ ↓ │ │
│ │ Claude (DeepSeek): 调用 mcp__vision__ │ │
│ │ analyze_image(photo.jpg) │ │
│ └──────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────────────────────────────────────┐ │
│ │ GYT-Vision MCP Server │ │
│ │ ① 读取图片 → ② 转换为 base64 │ │
│ │ ③ 调用千问 VL API → ④ 返回文字描述 │ │
│ └──────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────────────────────────────────────┐ │
│ │ 阿里云 DashScope — Qwen VL 多模态模型 │ │
│ │ 理解图像内容,生成详细中文描述 │ │
│ └──────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────────────────────────────────────┐ │
│ │ Claude (DeepSeek): 读取文字描述, │ │
│ │ 回答用户关于图片的问题 │ │
│ └──────────────────────────────────────────────┘ │
└──────────────────────────────────────────────────────────┘
DeepSeek 不会"看"图片,但它能读文字。这个 MCP 就是 DeepSeek 的"眼睛"。
✨ 核心特性
| 特性 |
说明 |
| 🔗 MCP 原生集成 |
安装后自动注册到 Claude Code,无需手动配置 |
| 🖼️ 多格式支持 |
JPG / PNG / GIF / WebP / BMP,本地路径或 HTTP URL |
| 🧠 千问 VL 驱动 |
基于阿里云 DashScope Qwen-VL 系列模型 |
| 📝 中文详细描述 |
返回结构化的中文图片描述,DeepSeek 可直接理解 |
| 🎯 可靠触发 |
MCP 工具协议,不受 Claude Code Skill 触发判断影响 |
| 💰 按量付费 |
一张图片约 ¥0.001-0.005,适合个人开发者 |
| 📋 侧边栏独立使用 |
不依赖 Claude Code,拖拽图片到侧边栏直接分析 |
| 🔑 安全配置 |
API Key 存储于 VS Code 设置中,仅本地使用 |
📦 安装
方法一:VS Code 插件市场(推荐)
- 在 VS Code 扩展面板(
Ctrl+Shift+X)搜索 "GYT-Vision MCP"
- 点击 Install
- 重载窗口,MCP Server 自动注册完成
方法二:本地 .vsix 安装
npm install -g @vscode/vsce
npx vsce package
code --install-extension gyt-vision-mcp-1.0.0.vsix
方法三:分享给同事
直接将 .vsix 文件拖入 VS Code 扩展面板即可安装。
🔧 配置
1. 获取 API Key
访问阿里云百炼平台,开通 DashScope 模型服务:
👉 https://bailian.console.aliyun.com/
开通后获取 API Key。
2. 配置 Key
命令面板方式:Ctrl+Shift+P → 搜索 GYT-Vision MCP: 配置 API Key
手动方式:在 VS Code settings.json 中添加:
{
"vision-mcp.dashscopeApiKey": "sk-xxxxxxxxxxxxxxxxxxxxxxxx",
"vision-mcp.model": "qwen3.5-omni-plus"
}
可用模型:
| 模型 |
说明 |
qwen3.5-omni-plus |
🏆 推荐,最新旗舰,综合能力最强 |
qwen-vl-max |
高精度,适合复杂场景 |
qwen-vl-plus |
轻量高效,适合日常使用 |
3. 在 Claude Code 中允许该工具
将以下内容添加到 Claude Code 的权限配置中(~/.claude/settings.json):
{
"permissions": {
"allow": ["mcp__vision__analyze_image"]
}
}
⚠️ 这一步很重要!否则 Claude Code 的 auto-mode 可能会随机拦截 MCP 工具调用。
🚀 使用方式
方式一:在 Claude Code 对话中使用(核心场景)
直接在 Claude Code 对话中:
你: 帮我分析一下这张图片 [粘贴图片或路径]
Claude(DeepSeek)会调用 mcp__vision__analyze_image 工具,将图片发送给 Qwen VL 分析,然后用文字描述回复你。整个过程对你是透明的。
适用场景:
- 代码截图中提取错误信息
- UI 设计稿转文字需求描述
- 文档/论文图表解读
- 照片中文字提取(OCR)
- 任意需要"看图说话"的场景
方式二:侧边栏独立使用
- 点击 VS Code 左侧活动栏 👁️ 图标
- 拖拽图片到侧边栏
- 点击 🔍 开始识别
- 结果以 Markdown 文档形式展示
💰 费用说明
| 模型 |
输入价格 |
输出价格 |
| qwen-vl-max |
¥0.003 / 千 tokens |
¥0.009 / 千 tokens |
| qwen-vl-plus |
¥0.0015 / 千 tokens |
¥0.0045 / 千 tokens |
一张 2560×1920 的照片约消耗 500-800 tokens,折合 ¥0.001-0.005,比一瓶水便宜得多。
🔄 架构对比
| 方案 |
触发机制 |
可靠性 |
| Skill(claude-vision-skill) |
Claude Code 上下文判断 |
❌ 经常不触发 |
| GYT-Vision MCP |
MCP 工具显式调用 |
✅ 100% 可靠 |
MCP 工具是 Claude Code 的底层协议,当你在对话中提到图片时,Claude 可以像调用任何其他工具一样调用 analyze_image。这不受上下文判断影响,也不依赖 Skill 的触发条件。
📄 License
MIT © gaoyutian
🙏 致谢