让 Claude 读图：图片理解实战

Claude 不只能处理文字——它还能「看懂」图片。上传一张截图，它能提取其中的文字；发一张图表，它能解读数据趋势；给一张 UI 设计稿，它能给出改进建议。图片理解是 Claude 最实用的功能之一。

你将学到什么

Claude 支持哪些图片格式和大小
6 个高价值的图片分析场景
提升识别准确率的技巧
图片 + 文字的组合 Prompt 最佳实践

基础知识：支持什么图片

支持的图片格式

支持的格式

JPEG：照片、截图
PNG：截图、设计稿、图表
GIF：静态 GIF（会分析第一帧）
WebP：现代网页图片格式

大小限制

单张图片最大 5MB（API）/ 10MB（claude.ai）
图片尺寸最大 8000 像素（任意边）
单次对话最多上传 20 张图片（claude.ai）

如何上传

在 claude.ai 中，点击输入框旁边的 附件图标（📎），选择图片即可。也可以直接粘贴截图（Ctrl+V / Cmd+V）。

6 个实战场景

六个实战场景

场景一：截图文字提取（OCR）

这可能是最常用的场景。拍一张书页照片、截一段对话记录，让 Claude 提取文字。

Prompt 示例：

请提取这张图片中的所有文字内容，保持原始排版格式。
如果有表格，请用 Markdown 表格格式输出。

适用场景：

纸质文档数字化
截图中的聊天记录提取
扫描的名片信息整理
手写笔记转文字

Tip: Claude 的 OCR 能力很强，对中英文、印刷体和大部分手写体都有不错的识别效果。如果图片模糊，可以告诉 Claude「图片可能有些模糊，请尽力识别」。

场景二：图表数据解读

发一张柱状图、折线图或饼图，让 Claude 帮你解读。

Prompt 示例：

请分析这张销售数据图表：
1. 描述图表展示的主要趋势
2. 指出最高点和最低点的数值
3. 给出 2-3 条数据洞察
4. 如果有异常波动，分析可能的原因

适用场景：

业务数据分析报告
市场研究图表解读
学术论文中的实验数据
财报中的趋势图

场景三：UI 设计审查

上传你的 APP 或网页截图，让 Claude 从设计角度给出建议。

Prompt 示例：

请从用户体验的角度审查这个登录页面的设计：
1. 布局和视觉层次是否合理
2. 配色方案是否和谐
3. 交互元素是否容易辨识
4. 有哪些具体的改进建议

适用场景：

产品设计评审
竞品 UI 分析
设计稿走查
用户界面优化

场景四：照片内容描述

让 Claude 详细描述照片中的内容，适合需要为图片配文字的场景。

Prompt 示例：

请详细描述这张照片的内容，包括：
- 场景和环境
- 主要人物/物体
- 光线和氛围
- 适合作为什么用途的配图

然后帮我写一段 50 字的社交媒体配文。

场景五：手写笔记识别

会议中手写的笔记、白板上的头脑风暴，拍照发给 Claude 整理。

Prompt 示例：

这是一张会议白板的照片。请：
1. 识别并整理白板上的所有内容
2. 按照逻辑关系重新组织为结构化笔记
3. 补充你认为缺失的要点
4. 最后生成一份简洁的会议纪要

场景六：多图对比分析

上传多张图片，让 Claude 进行对比分析。

Prompt 示例：

以下两张图分别是我们产品的旧版和新版设计。请对比分析：
1. 新版做了哪些主要变化
2. 哪些变化是好的，为什么
3. 哪些变化可能带来问题
4. 给出进一步优化的建议

提升识别准确率的技巧

提升准确率的技巧

1. 图片质量

清晰度：图片越清晰，识别越准确。模糊的照片会导致错误
光线：避免过暗或过曝的图片
角度：尽量正对拍摄，避免严重倾斜

2. 图片尺寸

Claude 内部会将图片缩放到 1568 像素以内处理
特别小的图片（低于 200x200）可能识别不准
最佳尺寸：宽或高在 1000-1500 像素之间

3. Prompt 引导

告诉 Claude 图片中有什么：「这是一张电商后台的数据报表截图」
告诉 Claude 你关注什么：「请重点分析右上角的折线图」
如果图片中有多个区域，用方位词引导：「左侧的表格」「底部的注释」

4. 多图标注

上传多张图片时，用编号标注：

图片 1 是我们的首页设计，图片 2 是竞品的首页。
请对比两者的导航栏设计差异。

图片 + 文字的组合 Prompt 范式

图文组合 Prompt

��有效的图片分析 Prompt 遵循这个结构：

[背景说明] — 告诉 Claude 这是什么图片
[图片上传] — 粘贴或上传图片
[具体任务] — 你希望 Claude 做什么分析
[输出格式] — 指定输出的格式和结构

完整示例：

我是一名产品经理，正在做竞品分析。
[上传竞品 APP 截图]
请从以下维度分析这个 APP 的设计：
1. 信息架构（导航结构）
2. 视觉设计（配色、字体、间距）
3. 交互设计（按钮、手势）
4. 用户体验（流程是否顺畅）

每个维度给出评分（1-5）和具体说明，最后总结 3 条我们可以借鉴的点。

Claude Vision 的局限性

诚实地说，Claude 的图片理解也有一些限制：

无法读取极小的文字：图片中太小的字体可能识别错误
复杂表格可能出错：多层嵌套的复杂表格，建议分区域询问
不擅长精确计数：「图中有多少人」这类问题可能不准确
不识别特定个人：出于隐私考虑，Claude 不会识别具体的人物身份

实战练习

Tip: 从你手边的截图开始练习。

截取你手机上的一个 APP 页面，让 Claude 分析 UI 设计
拍一张包含文字的照片（书页、菜单、名片），让 Claude 提取文字
上传一张工作中的数据图表，让 Claude 给出数据分析洞察

关键要点

Note: 本文核心总结

Claude 支持 JPEG、PNG、GIF、WebP 格式的图片分析
6 个核心场景：OCR、图表解读、UI 审查、照片描述、手写识别、多图对比
提升准确率：高清图片 + 背景说明 + 具体任务 + 方位引导
组合 Prompt 范式：背景 → 图片 → 任务 → 格式

你将学到什么

基础知识：支持什么图片

支持的格式

大小限制

如何上传

6 个实战场景

场景一：截图文字提取（OCR）

场景二：图表数据解读

场景三：UI 设计审查

场景四：照片内容描述

场景五：手写笔记识别

场景六：多图对比分析

提升识别准确率的技巧

1. 图片质量

2. 图片尺寸

3. Prompt 引导

4. 多图标注

图片 + 文字的组合 Prompt 范式

Claude Vision 的局限性

实战练习

关键要点

延伸阅读