「我把四张网站截图丢给Claude,一小时内拿到了四套完整文案。」——这不是演示视频,是Muhammad Bilal上周的真实工作流。当大多数人还在复制粘贴文字时,他已经用视觉输入跳过了整个信息整理环节。

从文字到视觉:输入方式的质变

打开网易新闻 查看精彩图片

传统的内容生产流程有个隐形瓶颈:你得先把看到的页面结构、视觉层次、品牌调性,手动翻译成文字描述,AI才能理解。Bilal的解法很直接——跳过翻译,直接上截图。

Claude的视觉能力(计算机视觉多模态处理)让他能直接上传页面截图,AI自动识别布局、配色、字体层级、CTA按钮位置。这意味着什么?原本需要30分钟的页面分析,现在变成10秒的上传动作。

他测试的是一套四页面的网站改版:首页、产品页、定价页、关于我们。每页一张截图,没有文字说明,没有风格指南,没有品牌手册。

一小时内的四连输出

时间线是检验效率的硬标准。Bilal记录了整个会话的耗时分布:

0-15分钟:上传四张截图,逐页与Claude确认理解偏差。AI对视觉元素的解读准确度让他意外——不仅识别出「这是定价表」,还能推断出「三栏布局暗示中端套餐是主推选项」。

15-45分钟:并行生成四页文案。首页侧重价值主张,产品页聚焦功能-收益转化,定价页强化选择逻辑,关于我们页处理信任建立。每页输出后,他用截图圈出修改区域,AI即时迭代。

45-60分钟:最终润色与格式统一。包括标题字数对齐、CTA动词一致性、段落节奏调整。

「最省时间的不是写作本身,是省去了我解释『这个按钮为什么放这里』的沟通成本。」Bilal在复盘时提到。

截图输入的隐藏优势

这个工作流的价值不止于快。Bilal发现三个被低估的效益:

第一,视觉上下文保真。文字描述总会丢失信息——你说「简洁的定价页」,AI不知道简洁是指单栏还是三栏、有没有对比色高亮、有没有年费切换开关。截图把这些歧义清零。

第二,反向验证设计决策。当AI基于截图生成文案时,它会暴露原设计的逻辑漏洞。比如某页截图中CTA按钮与核心文案距离过远,Claude生成的文案自然弱化了转化力度——这反而提醒Bilal需要调整布局或强化桥接内容。

第三,批量生产的结构一致性。四页同时处理,AI能自动维护跨页面的术语统一、语调连贯、叙事递进。这是分次单页生成难以实现的。

局限与边界条件

Bilal没有回避问题。截图输入在三种场景下会失效:

动态内容无法捕获。轮播图、悬停状态、视频背景——静态截图会丢失这些元素。他的 workaround 是多帧截图拼接,但增加了准备成本。

复杂交互流程难以单图表达。超过三步的用户路径,需要补充流程图或分步骤截图。

品牌语音的细微差别仍需人工校准。AI能模仿语气,但特定行业的合规用语、创始人个人的表达习惯,需要最终人工把关。

「我把它定位为第一稿生成器,而非终稿交付物。」Bilal明确划定了工具边界。

工作流的可复现性

这个案例的可复制性取决于两个前提:

视觉理解能力的门槛。不是所有AI都能做到Claude级别的页面结构解析——识别模块功能、推断用户意图、关联视觉层级与文案权重。这是Anthropic在计算机视觉多模态上的特定投入。

提示工程的最小化。Bilal的提示词异常简单:「根据这张截图,为[页面名称]撰写文案,目标受众是[描述],核心转化目标是[动作]」。复杂的是前置判断:选哪张截图、框定什么范围、传递什么意图。

他建议的入门路径:从单页开始,测试AI对你所在行业页面模式的理解深度,再扩展到批量处理。

对内容生产者的实际影响

Bilal的实践指向一个正在发生的转变:视觉输入正在重塑人机协作的接口标准。

对文案从业者,这意味着技能重心的迁移——从「写得快」转向「看得准」,从文字 craft 转向信息架构的预判。你需要更敏锐地判断:哪张截图能代表完整的用户视角?页面中的哪些视觉信号是AI必须捕捉的?

对团队流程,这压缩了设计-文案-开发的串行周期。设计师出初稿后,文案可以同步介入,无需等待高保真原型。并行度的提升,直接对应项目周期的缩短。

对工具选型,这是评估AI服务商的新维度:视觉理解不是锦上添花,而是基础能力。处理截图的准确度、对网页布局的熟悉度、生成内容与视觉语境的匹配度,将成为核心指标。

Bilal的下一步测试:把用户测试录像的帧截图喂给AI,生成基于真实行为数据的文案优化建议。如果视觉输入能打通设计、文案、用研三个环节,内容生产的整体范式会被重新定义——而我们现在看到的,可能只是第一张多米诺骨牌?