DeepSeek-V3的文本能力已经让行业重新定价,但它的"眼睛"直到今天才睁开。4月29日,部分用户发现网页版悄然上线"识图模式"——这距离它靠纯文本推理惊艳市场,已经过去了三个月。
更微妙的是时间线:本月初刚推"快速/专家"双模式,月底就多模态开闸。产品迭代节奏背后,是一套清晰的进攻逻辑。
一、识图模式实测:从"盲答"到"看图说话"
根据用户反馈,新功能支持上传图片并进行内容理解与分析。DeepSeek多模态研究员陈小康在X平台发文"Now, we see you",配图是标志性鲸鱼"摘下"眼罩——视觉隐喻直接拉满。
值得注意的是,该功能尚未全量推送,功能边界也未公开。这与DeepSeek一贯的风格一致:先小范围验证,再决定是否扩大。
回溯月初的更新,"快速模式"主打即时响应,"专家模式"专攻复杂推理。当时网传的截图里,除了这两个选项,还藏着一个名为"vision"的灰色入口。如今的"识图模式"与那个入口高度吻合,说明多模态一直在路线图内,只是优先级后置。
产品矩阵从纯文本延伸至图文交互,意味着DeepSeek正式向GPT-4o、Gemini等主流多模态大模型靠拢。但"靠拢"不等于"对齐"——后者已经跑通语音、视频、实时屏幕理解,DeepSeek的进度条明显落后。
二、迟到者的筹码:为什么现在才做视觉?
DeepSeek的取舍很现实。年初的爆火源于一个判断:在算力受限环境下,把文本推理做到极致,比面面俱到更有穿透力。结果是V3以极低成本逼近GPT-4级别表现,直接改写了行业对训练成本的认知。
但多模态不是"锦上添花",而是下一代AI产品的入场券。当用户习惯了"拍张照问AI"的交互,纯文本模型哪怕推理再强,场景也会收窄。
DeepSeek的应对策略是分阶段释放:
第一阶段,用文本能力建立口碑和开发者生态;第二阶段,补齐视觉理解,覆盖更多C端场景;第三阶段,很可能是语音和实时交互——这是智能体(Agent)落地的必备组件。
这种"单点突破、逐步补全"的路径,与OpenAI的"全能模型"思路形成对比。好处是资源集中、风险可控;代价是窗口期压力——竞争对手不会停下来等。
三、政策层面的同步信号
同一天,第九届数字中国建设峰会在福州开幕。国务院副总理丁薛祥的讲话,给AI行业划了五条线:自主创新、应用牵引、生态协同、开放共赢、安全可控。
其中"多路线布局前沿技术探索,全链条推进关键核心技术攻关"的表述,与DeepSeek的技术路线形成呼应。纯文本推理是一条路线,多模态是另一条,两者并行不悖。
更关键的是"应用牵引"——丁薛祥明确指出,我国AI的优势在于"完备产业体系、丰富数据资源、广阔应用场景"。这解释了为什么DeepSeek选择此时开放识图:视觉理解是连接物理世界与数字世界的桥梁,没有它,"人工智能+"行动就缺了一条腿。
四、商业变局:从"卖模型"到"卖算力服务"
DeepSeek的技术迭代,正在倒逼云厂商调整定价策略。阿里云百炼宣布,4月29日23:59:59起,DeepSeek-V4-Pro模型的隐式缓存计费单价下调至1元/百万Token。
隐式缓存(Implicit Cache)的机制是:当请求命中缓存时,输入Token按cached_token计费;未命中则按标准价。这次降价只涉及缓存命中部分,基础推理价格不变。
这个调整很精细。它针对的是高频、重复性调用场景——比如客服问答、内容审核,这些场景缓存命中率高,降价直接转化为客户成本优势。对于长尾、创新性调用,价格杠杆不变,避免过度补贴。
云厂商的算盘很清楚:用DeepSeek的模型吸引力,带动自身的算力消费。模型层越卷,基础设施层越稳。
五、行业侧写:谁在进场,谁在离场
资本市场的动作同样值得玩味。根据寒武纪2026年第一季度报告,章建平已退出十大股东行列;而2025年年报显示,其持股数量为681.49万股。
章建平是A股知名的"超级牛散",此前长期押注寒武纪。这次退出发生在寒武纪股价经历大幅波动之后, timing耐人寻味。AI芯片赛道的故事从"国产替代"转向"商业落地",早期投资者的耐心正在经受考验。
另一边,传统行业的AI渗透在加速。联想集团董事长杨元庆的判断是:AI正从云端走向终端,从公共走向个体,从问答走向行动,从模型走向智能体。他造了一个词叫"龙虾们"——数以亿计、7x24小时工作的智能终端。
这个比喻的潜台词是:未来的算力需求不只来自人类用户,更来自机器自主运行。DeepSeek的识图能力,恰恰是"龙虾"感知物理世界的感官之一。
宇树科技创始人王兴兴则给出了具身智能的落地标准:在80%陌生场景中,通过语音和语言指令完成约80%任务。要达到这个水平,需要突破三个方向——任务表达能力、多元数据对齐、模型与真实机器人的对齐。
DeepSeek的多模态开放,对应的是第二个方向:让AI看得懂、听得懂,才能指挥机器人动得了。
六、产品细节:朋友圈改版与交互惯性
同一天,微信朋友圈改版冲上热搜第一。文字从配图右侧移到上方,日期显示调整,右上角新增"朋友圈相册"入口,可按年、月、日缩放展示。
腾讯客服的回应很官方:"展示形式的优化调整,会持续优化浏览体验。"但细节变化反映的是更深层的产品逻辑:在短视频和信息流夹击下,朋友圈试图用"相册化"设计唤醒用户的翻阅惯性,对抗内容消费的碎片化。
这与DeepSeek的产品节奏形成有趣对照:一个在做"减法"(聚焦核心能力后逐步扩展),一个在做"加法"(在成熟形态上叠加功能)。两种路径没有高下,只有场景适配。
七、监管与市场:电动自行车的警示约谈
北京市市场监管局对雅迪、爱玛、台铃、九号、小牛、小刀、新日、绿源8家电动自行车企业开展警示约谈,提出"两落实、五严禁"。
核心指向是改装乱象:严禁预留改装空间、严禁销售未经认证车辆、严禁加装改装。这与AI行业的监管逻辑异曲同工——技术创新的前提是安全可控,丁薛祥讲话中的"无论人工智能如何发展,都应当为人类所利用、为人类所掌控",同样是这个意思。
八、业绩快照:冰火两重天
一季度财报季,几家公司的数据形成鲜明反差:
工商银行:营收2303.70亿元,同比增长8.27%;归母净利润869.41亿元,增长3.31%。利息净收入增长7.49%,非利息收入增长10.45%。传统金融的韧性仍在。
万科A:营收289.28亿元,同比下降23.86%;归母净利润亏损59.52亿元,同比减亏4.71%。开发业务亏损是主因,"减亏"二字说明底部尚未确认。
天风证券:营收4.37亿元,同比下降31.06%;归母净利润22.36万元,同比下降99.07%。投资收益锐减几乎抹平了全部利润,券商的周期属性暴露无遗。
这些数字与AI行业的热闹形成对照:技术变革的叙事再宏大,短期内也填不平宏观周期的沟壑。
九、一场乌龙:霸王茶姬的水银事件
安徽宿州砀山县通报,"霸王茶姬奶茶中喝出水银"系购买人投放,涉案人员已被控制。
调查结论很明确:门店原材料、生产流程无异常。这起事件从舆情爆发到真相还原,只用了不到48小时。对于新消费品牌而言,供应链透明度和危机响应速度,已经是比口味更基础的竞争力。
数据收束
DeepSeek的识图模式、阿里云的缓存降价、章建平的退出、8家电动车企的约谈——4月29日的这些碎片,拼凑出一个清晰的图景:AI行业正在从"技术惊艳期"进入"产品落地期"。
技术层面的单点突破已经不够,多模态、低成本、合规性、商业闭环,缺一不可。DeepSeek的"迟到"有其合理性,但市场不会无限宽容。当GPT-4o的视觉理解已经成为默认选项,当Gemini的实时交互开始定义用户体验,窗口期正在以月为单位收缩。
丁薛祥讲话中的五个"坚持",既是政策导向,也是行业生存指南。自主创新是底气,应用牵引是路径,生态协同是方法,开放共赢是格局,安全可控是底线。DeepSeek的下一步,能不能把这五条都走通,将决定它是一时黑马还是长期玩家。
至于那个摘下眼罩的鲸鱼logo——它现在确实"看见"了,但能不能看清、看透、看准,还需要更多数据点来验证。
热门跟贴