Vision图片识别
让 Claude 读图:图片理解实战
·约 6 分钟阅读
Claude 不只能处理文字——它还能「看懂」图片。上传一张截图,它能提取其中的文字;发一张图表,它能解读数据趋势;给一张 UI 设计稿,它能给出改进建议。图片理解是 Claude 最实用的功能之一。
你将学到什么
- Claude 支持哪些图片格式和大小
- 6 个高价值的图片分析场景
- 提升识别准确率的技巧
- 图片 + 文字的组合 Prompt 最佳实践
基础知识:支持什么图片
支持的格式
- JPEG:照片、截图
- PNG:截图、设计稿、图表
- GIF:静态 GIF(会分析第一帧)
- WebP:现代网页图片格式
大小限制
- 单张图片最大 5MB(API)/ 10MB(claude.ai)
- 图片尺寸最大 8000 像素(任意边)
- 单次对话最多上传 20 张图片(claude.ai)
如何上传
在 claude.ai 中,点击输入框旁边的 附件图标(📎),选择图片即可。也可以直接粘贴截图(Ctrl+V / Cmd+V)。
6 个实战场景
场景一:截图文字提取(OCR)
这可能是最常用的场景。拍一张书页照片、截一段对话记录,让 Claude 提取文字。
Prompt 示例:
请提取这张图片中的所有文字内容,保持原始排版格式。
如果有表格,请用 Markdown 表格格式输出。
适用场景:
- 纸质文档数字化
- 截图中的聊天记录提取
- 扫描的名片信息整理
- 手写笔记转文字
Tip: Claude 的 OCR 能力很强,对中英文、印刷体和大部分手写体都有不错的识别效果。如果图片模糊,可以告诉 Claude「图片可能有些模糊,请尽力识别」。
场景二:图表数据解读
发一张柱状图、折线图或饼图,让 Claude 帮你解读。
Prompt 示例:
请分析这张销售数据图表:
1. 描述图表展示的主要趋势
2. 指出最高点和最低点的数值
3. 给出 2-3 条数据洞察
4. 如果有异常波动,分析可能的原因
适用场景:
- 业务数据分析报告
- 市场研究图表解读
- 学术论文中的实验数据
- 财报中的趋势图
场景三:UI 设计审查
上传你的 APP 或网页截图,让 Claude 从设计角度给出建议。
Prompt 示例:
请从用户体验的角度审查这个登录页面的设计:
1. 布局和视觉层次是否合理
2. 配色方案是否和谐
3. 交互元素是否容易辨识
4. 有哪些具体的改进建议
适用场景:
- 产品设计评审
- 竞品 UI 分析
- 设计稿走查
- 用户界面优化
场景四:照片内容描述
让 Claude 详细描述照片中的内容,适合需要为图片配文字的场景。
Prompt 示例:
请详细描述这张照片的内容,包括:
- 场景和环境
- 主要人物/物体
- 光线和氛围
- 适合作为什么用途的配图
然后帮我写一段 50 字的社交媒体配文。
场景五:手写笔记识别
会议中手写的笔记、白板上的头脑风暴,拍照发给 Claude 整理。
Prompt 示例:
这是一张会议白板的照片。请:
1. 识别并整理白板上的所有内容
2. 按照逻辑关系重新组织为结构化笔记
3. 补充你认为缺失的要点
4. 最后生成一份简洁的会议纪要
场景六:多图对比分析
上传多张图片,让 Claude 进行对比分析。
Prompt 示例:
以下两张图分别是我们产品的旧版和新版设计。请对比分析:
1. 新版做了哪些主要变化
2. 哪些变化是好的,为什么
3. 哪些变化可能带来问题
4. 给出进一步优化的建议
提升识别准确率的技巧
1. 图片质量
- 清晰度:图片越清晰,识别越准确。模糊的照片会导致错误
- 光线:避免过暗或过曝的图片
- 角度:尽量正对拍摄,避免严重倾斜
2. 图片尺寸
- Claude 内部会将图片缩放到 1568 像素以内处理
- 特别小的图片(低于 200x200)可能识别不准
- 最佳尺寸:宽或高在 1000-1500 像素之间
3. Prompt 引导
- 告诉 Claude 图片中有什么:「这是一张电商后台的数据报表截图」
- 告诉 Claude 你关注什么:「请重点分析右上角的折线图」
- 如果图片中有多个区域,用方位词引导:「左侧的表格」「底部的注释」
4. 多图标注
上传多张图片时,用编号标注:
图片 1 是我们的首页设计,图片 2 是竞品的首页。
请对比两者的导航栏设计差异。
图片 + 文字的组合 Prompt 范式
���有效的图片分析 Prompt 遵循这个结构:
[背景说明] — 告诉 Claude 这是什么图片
[图片上传] — 粘贴或上传图片
[具体任务] — 你希望 Claude 做什么分析
[输出格式] — 指定输出的格式和结构
完整示例:
我是一名产品经理,正在做竞品分析。
[上传竞品 APP 截图]
请从以下维度分析这个 APP 的设计:
1. 信息架构(导航结构)
2. 视觉设计(配色、字体、间距)
3. 交互设计(按钮、手势)
4. 用户体验(流程是否顺畅)
每个维度给出评分(1-5)和具体说明,最后总结 3 条我们可以借鉴的点。
Claude Vision 的局限性
诚实地说,Claude 的图片理解也有一些限制:
- 无法读取极小的文字:图片中太小的字体可能识别错误
- 复杂表格可能出错:多层嵌套的复杂表格,建议分区域询问
- 不擅长精确计数:「图中有多少人」这类问题可能不准确
- 不识别特定个人:出于隐私考虑,Claude 不会识别具体的人物身份
实战练习
Tip: 从你手边的截图开始练习。
- 截取你手机上的一个 APP 页面,让 Claude 分析 UI 设计
- 拍一张包含文字的照片(书页、菜单、名片),让 Claude 提取文字
- 上传一张工作中的数据图表,让 Claude 给出数据分析洞察
关键要点
Note: 本文核心总结
- Claude 支持 JPEG、PNG、GIF、WebP 格式的图片分析
- 6 个核心场景:OCR、图表解读、UI 审查、照片描述、手写识别、多图对比
- 提升准确率:高清图片 + 背景说明 + 具体任务 + 方位引导
- 组合 Prompt 范式:背景 → 图片 → 任务 → 格式