Skip to content
| Marketplace
Sign in
Visual Studio Code>Machine Learning>GYT-Vision MCP — AI 图片识别New to Visual Studio Code? Get it now.
GYT-Vision MCP — AI 图片识别

GYT-Vision MCP — AI 图片识别

gaoyutian

|
3 installs
| (0) | Free
为 DeepSeek 等纯文本模型赋予图片识别能力。通过 MCP 协议接入千问 VL 多模态模型,解决 Claude Code 中 DeepSeek 无法识别图片的问题,100% 可靠触发,无需切换模型。灵感源自 asuojun/claude-vision-skill。
Installation
Launch VS Code Quick Open (Ctrl+P), paste the following command, and press enter.
Copied to clipboard
More Info

👁️ GYT-Vision MCP — 为 DeepSeek 赋予"视觉"

VS Code Marketplace License

为什么需要这个 MCP?

一个真实的问题

很多 Claude Code 用户通过 DeepSeek v4-pro 接入使用,享受其强大的推理能力和长上下文支持。但 DeepSeek 有一个明显的短板——它不具备多模态能力,无法直接识别图片和视频。

当你把一张图片拖入 Claude Code 让 DeepSeek 分析时,它只能看到文件路径,无法理解图像内容。每次遇到这个问题,对话就会中断,你需要:

  • 手动切换模型
  • 或者打开其他工具单独分析图片
  • 然后把结果粘贴回来继续对话

体验极差。

已有的尝试

GitHub 博主 @asuojun 发布了一个 claude-vision-skill,试图通过 Skill 机制在遇到图片时自动切换多模态模型来处理。这个思路很好,但在实际使用中经常出现图片无法正常触发 Skill 的情况,导致识别流程未能启动。

根本原因在于:Skill 的触发依赖 Claude Code 的上下文判断,当判断失误时,图片就被忽略了。

我们的方案

GYT-Vision MCP 采用了一个根本性的不同架构:MCP 工具协议。

它不依赖 Claude Code 的"自觉判断",而是直接注册为 MCP Server——当你的对话中出现图片时,你可以直接让 Claude 调用 analyze_image 工具。这个工具会:

  1. 接收本地图片路径或 URL
  2. 将图片发送给阿里云的千问 VL 多模态大模型(Qwen-VL)
  3. 返回详细的图片中文描述
  4. Claude(DeepSeek)收到文字描述后,继续完成你的分析需求
┌──────────────────────────────────────────────────────────┐
│                    Claude Code                            │
│  ┌──────────────────────────────────────────────┐        │
│  │  用户: "帮我分析这张图"  + 🖼️ photo.jpg       │        │
│  │         ↓                                      │        │
│  │  Claude (DeepSeek): 调用 mcp__vision__        │        │
│  │                     analyze_image(photo.jpg)    │        │
│  └──────────────────────────────────────────────┘        │
│         │                                                │
│         ▼                                                │
│  ┌──────────────────────────────────────────────┐        │
│  │         GYT-Vision MCP Server                 │        │
│  │  ① 读取图片 → ② 转换为 base64                │        │
│  │  ③ 调用千问 VL API → ④ 返回文字描述           │        │
│  └──────────────────────────────────────────────┘        │
│         │                                                │
│         ▼                                                │
│  ┌──────────────────────────────────────────────┐        │
│  │  阿里云 DashScope — Qwen VL 多模态模型        │        │
│  │  理解图像内容,生成详细中文描述                 │        │
│  └──────────────────────────────────────────────┘        │
│         │                                                │
│         ▼                                                │
│  ┌──────────────────────────────────────────────┐        │
│  │  Claude (DeepSeek): 读取文字描述,             │        │
│  │  回答用户关于图片的问题                        │        │
│  └──────────────────────────────────────────────┘        │
└──────────────────────────────────────────────────────────┘

DeepSeek 不会"看"图片,但它能读文字。这个 MCP 就是 DeepSeek 的"眼睛"。


✨ 核心特性

特性 说明
🔗 MCP 原生集成 安装后自动注册到 Claude Code,无需手动配置
🖼️ 多格式支持 JPG / PNG / GIF / WebP / BMP,本地路径或 HTTP URL
🧠 千问 VL 驱动 基于阿里云 DashScope Qwen-VL 系列模型
📝 中文详细描述 返回结构化的中文图片描述,DeepSeek 可直接理解
🎯 可靠触发 MCP 工具协议,不受 Claude Code Skill 触发判断影响
💰 按量付费 一张图片约 ¥0.001-0.005,适合个人开发者
📋 侧边栏独立使用 不依赖 Claude Code,拖拽图片到侧边栏直接分析
🔑 安全配置 API Key 存储于 VS Code 设置中,仅本地使用

📦 安装

方法一:VS Code 插件市场(推荐)

  1. 在 VS Code 扩展面板(Ctrl+Shift+X)搜索 "GYT-Vision MCP"
  2. 点击 Install
  3. 重载窗口,MCP Server 自动注册完成

方法二:本地 .vsix 安装

npm install -g @vscode/vsce
npx vsce package
code --install-extension gyt-vision-mcp-1.0.0.vsix

方法三:分享给同事

直接将 .vsix 文件拖入 VS Code 扩展面板即可安装。


🔧 配置

1. 获取 API Key

访问阿里云百炼平台,开通 DashScope 模型服务:

👉 https://bailian.console.aliyun.com/

开通后获取 API Key。

2. 配置 Key

命令面板方式:Ctrl+Shift+P → 搜索 GYT-Vision MCP: 配置 API Key

手动方式:在 VS Code settings.json 中添加:

{
  "vision-mcp.dashscopeApiKey": "sk-xxxxxxxxxxxxxxxxxxxxxxxx",
  "vision-mcp.model": "qwen3.5-omni-plus"
}

可用模型:

模型 说明
qwen3.5-omni-plus 🏆 推荐,最新旗舰,综合能力最强
qwen-vl-max 高精度,适合复杂场景
qwen-vl-plus 轻量高效,适合日常使用

3. 在 Claude Code 中允许该工具

将以下内容添加到 Claude Code 的权限配置中(~/.claude/settings.json):

{
  "permissions": {
    "allow": ["mcp__vision__analyze_image"]
  }
}

⚠️ 这一步很重要!否则 Claude Code 的 auto-mode 可能会随机拦截 MCP 工具调用。


🚀 使用方式

方式一:在 Claude Code 对话中使用(核心场景)

直接在 Claude Code 对话中:

你: 帮我分析一下这张图片 [粘贴图片或路径]

Claude(DeepSeek)会调用 mcp__vision__analyze_image 工具,将图片发送给 Qwen VL 分析,然后用文字描述回复你。整个过程对你是透明的。

适用场景:

  • 代码截图中提取错误信息
  • UI 设计稿转文字需求描述
  • 文档/论文图表解读
  • 照片中文字提取(OCR)
  • 任意需要"看图说话"的场景

方式二:侧边栏独立使用

  1. 点击 VS Code 左侧活动栏 👁️ 图标
  2. 拖拽图片到侧边栏
  3. 点击 🔍 开始识别
  4. 结果以 Markdown 文档形式展示

💰 费用说明

模型 输入价格 输出价格
qwen-vl-max ¥0.003 / 千 tokens ¥0.009 / 千 tokens
qwen-vl-plus ¥0.0015 / 千 tokens ¥0.0045 / 千 tokens

一张 2560×1920 的照片约消耗 500-800 tokens,折合 ¥0.001-0.005,比一瓶水便宜得多。


🔄 架构对比

方案 触发机制 可靠性
Skill(claude-vision-skill) Claude Code 上下文判断 ❌ 经常不触发
GYT-Vision MCP MCP 工具显式调用 ✅ 100% 可靠

MCP 工具是 Claude Code 的底层协议,当你在对话中提到图片时,Claude 可以像调用任何其他工具一样调用 analyze_image。这不受上下文判断影响,也不依赖 Skill 的触发条件。


📄 License

MIT © gaoyutian


🙏 致谢

  • 灵感来源:@asuojun/claude-vision-skill
  • 视觉模型:阿里云 DashScope 千问 VL
  • Contact us
  • Jobs
  • Privacy
  • Manage cookies
  • Terms of use
  • Trademarks
© 2026 Microsoft