👁️ GYT-Vision MCP — 为 DeepSeek 赋予"视觉"

为什么需要这个 MCP？

一个真实的问题

很多 Claude Code 用户通过 DeepSeek v4-pro 接入使用，享受其强大的推理能力和长上下文支持。但 DeepSeek 有一个明显的短板——它不具备多模态能力，无法直接识别图片和视频。

当你把一张图片拖入 Claude Code 让 DeepSeek 分析时，它只能看到文件路径，无法理解图像内容。每次遇到这个问题，对话就会中断，你需要：

手动切换模型
或者打开其他工具单独分析图片
然后把结果粘贴回来继续对话

体验极差。

已有的尝试

GitHub 博主 @asuojun 发布了一个 claude-vision-skill，试图通过 Skill 机制在遇到图片时自动切换多模态模型来处理。这个思路很好，但在实际使用中经常出现图片无法正常触发 Skill 的情况，导致识别流程未能启动。

根本原因在于：Skill 的触发依赖 Claude Code 的上下文判断，当判断失误时，图片就被忽略了。

我们的方案

GYT-Vision MCP 采用了一个根本性的不同架构：MCP 工具协议。

它不依赖 Claude Code 的"自觉判断"，而是直接注册为 MCP Server——当你的对话中出现图片时，你可以直接让 Claude 调用 analyze_image 工具。这个工具会：

接收本地图片路径或 URL
将图片发送给阿里云的千问 VL 多模态大模型（Qwen-VL）
返回详细的图片中文描述
Claude（DeepSeek）收到文字描述后，继续完成你的分析需求

┌──────────────────────────────────────────────────────────┐
│                    Claude Code                            │
│  ┌──────────────────────────────────────────────┐        │
│  │  用户: "帮我分析这张图"  + 🖼️ photo.jpg       │        │
│  │         ↓                                      │        │
│  │  Claude (DeepSeek): 调用 mcp__vision__        │        │
│  │                     analyze_image(photo.jpg)    │        │
│  └──────────────────────────────────────────────┘        │
│         │                                                │
│         ▼                                                │
│  ┌──────────────────────────────────────────────┐        │
│  │         GYT-Vision MCP Server                 │        │
│  │  ① 读取图片 → ② 转换为 base64                │        │
│  │  ③ 调用千问 VL API → ④ 返回文字描述           │        │
│  └──────────────────────────────────────────────┘        │
│         │                                                │
│         ▼                                                │
│  ┌──────────────────────────────────────────────┐        │
│  │  阿里云 DashScope — Qwen VL 多模态模型        │        │
│  │  理解图像内容，生成详细中文描述                 │        │
│  └──────────────────────────────────────────────┘        │
│         │                                                │
│         ▼                                                │
│  ┌──────────────────────────────────────────────┐        │
│  │  Claude (DeepSeek): 读取文字描述，             │        │
│  │  回答用户关于图片的问题                        │        │
│  └──────────────────────────────────────────────┘        │
└──────────────────────────────────────────────────────────┘

DeepSeek 不会"看"图片，但它能读文字。这个 MCP 就是 DeepSeek 的"眼睛"。

✨ 核心特性

特性	说明
🔗 MCP 原生集成	安装后自动注册到 Claude Code，无需手动配置
🖼️ 多格式支持	JPG / PNG / GIF / WebP / BMP，本地路径或 HTTP URL
🧠 千问 VL 驱动	基于阿里云 DashScope Qwen-VL 系列模型
📝 中文详细描述	返回结构化的中文图片描述，DeepSeek 可直接理解
🎯 可靠触发	MCP 工具协议，不受 Claude Code Skill 触发判断影响
💰 按量付费	一张图片约 ¥0.001-0.005，适合个人开发者
📋 侧边栏独立使用	不依赖 Claude Code，拖拽图片到侧边栏直接分析
🔑 安全配置	API Key 存储于 VS Code 设置中，仅本地使用

📦 安装

方法一：VS Code 插件市场（推荐）

在 VS Code 扩展面板（Ctrl+Shift+X）搜索 "GYT-Vision MCP"
点击 Install
重载窗口，MCP Server 自动注册完成

方法二：本地 .vsix 安装

npm install -g @vscode/vsce
npx vsce package
code --install-extension gyt-vision-mcp-1.0.0.vsix

方法三：分享给同事

直接将 .vsix 文件拖入 VS Code 扩展面板即可安装。

🔧 配置

1. 获取 API Key

访问阿里云百炼平台，开通 DashScope 模型服务：

👉 https://bailian.console.aliyun.com/

开通后获取 API Key。

2. 配置 Key

命令面板方式：Ctrl+Shift+P → 搜索 GYT-Vision MCP: 配置 API Key

手动方式：在 VS Code settings.json 中添加：

{
  "vision-mcp.dashscopeApiKey": "sk-xxxxxxxxxxxxxxxxxxxxxxxx",
  "vision-mcp.model": "qwen3.5-omni-plus"
}

可用模型：

模型	说明
`qwen3.5-omni-plus`	🏆 推荐，最新旗舰，综合能力最强
`qwen-vl-max`	高精度，适合复杂场景
`qwen-vl-plus`	轻量高效，适合日常使用

3. 在 Claude Code 中允许该工具

将以下内容添加到 Claude Code 的权限配置中（~/.claude/settings.json）：

{
  "permissions": {
    "allow": ["mcp__vision__analyze_image"]
  }
}

⚠️ 这一步很重要！否则 Claude Code 的 auto-mode 可能会随机拦截 MCP 工具调用。

🚀 使用方式

方式一：在 Claude Code 对话中使用（核心场景）

直接在 Claude Code 对话中：

你: 帮我分析一下这张图片 [粘贴图片或路径]

Claude（DeepSeek）会调用 mcp__vision__analyze_image 工具，将图片发送给 Qwen VL 分析，然后用文字描述回复你。整个过程对你是透明的。

适用场景：

代码截图中提取错误信息
UI 设计稿转文字需求描述
文档/论文图表解读
照片中文字提取（OCR）
任意需要"看图说话"的场景

方式二：侧边栏独立使用

点击 VS Code 左侧活动栏 👁️ 图标
拖拽图片到侧边栏
点击 🔍 开始识别
结果以 Markdown 文档形式展示

💰 费用说明

模型	输入价格	输出价格
qwen-vl-max	¥0.003 / 千 tokens	¥0.009 / 千 tokens
qwen-vl-plus	¥0.0015 / 千 tokens	¥0.0045 / 千 tokens

一张 2560×1920 的照片约消耗 500-800 tokens，折合 ¥0.001-0.005，比一瓶水便宜得多。

🔄 架构对比

方案	触发机制	可靠性
Skill（claude-vision-skill）	Claude Code 上下文判断	❌ 经常不触发
GYT-Vision MCP	MCP 工具显式调用	✅ 100% 可靠

MCP 工具是 Claude Code 的底层协议，当你在对话中提到图片时，Claude 可以像调用任何其他工具一样调用 analyze_image。这不受上下文判断影响，也不依赖 Skill 的触发条件。

📄 License

🙏 致谢

灵感来源：@asuojun/claude-vision-skill
视觉模型：阿里云 DashScope 千问 VL

GYT-Vision MCP — AI 图片识别

gaoyutian