为什么你的AI助手能秒画简单柱状图,却在真实业务报表面前频频崩溃?
一组中国高校研究者放出了RealChart2Code基准测试结果:14个主流AI模型,面对真实数据集构建的复杂可视化任务,顶级闭源模型性能直接腰斩,开源模型更是跌去四分之三。这不是技术迭代中的正常波动,而是整个多模态代码生成领域的系统性天花板。
测试设计:为什么这次不一样
之前的图表生成基准,比如Plot2Code和ChartMimic,主要用合成数据和简单单图。研究者这次直接从Kaggle拉了1,036个数据集,总计约8.6亿行数据,构建了2,800多个测试用例。
关键差异体现在三个维度:
第一,复合布局。真实业务报表很少是单张图,而是多图组合、交互联动。第二,50种图表类型。从基础柱状图到桑基图、热力图、雷达图,覆盖数据可视化全谱系。第三,原始数据规模。模型要处理的是未经清洗的大文件,而非精心裁剪的样本。
测试任务也贴近实际开发流程:纯图复刻(给图出代码)、数据复刻(给图+原始数据出代码)、迭代修复(给错误代码+对话调试)。第三个任务尤其扎心——模拟的是程序员日常:代码跑不通,跟AI来回扯皮改bug。
论文明确指出,这是首个系统性评估大规模原始数据集代码生成和对话式迭代修复的基准。
成绩揭晓:闭源碾压,但全员不及格
14个模型分两组:5个闭源,9个开源权重。
闭源组成绩单:Anthropic的Claude 4.5 Opus平均8.2分(满分按8项视觉准确度指标折算),Google的Gemini 3 Pro Preview以8.1分紧随其后,但在基础图复刻任务上拿下9.0分。OpenAI的GPT-5.1只有5.4分,明显掉队。
开源组更惨淡。最强的Qwen3-VL-235B和Intern-VL-3.5-241B分别拿到3.6和3.4分,不到头部闭源模型的一半。最小的DeepSeek-VL-7B在图复刻任务上通过率仅9.7%——超过90%的生成代码直接跑不起来。
这里有个细节值得玩味:Gemini 3 Pro在简单基准ChartMimic上能拿96%(标准化后),到了RealChart2Code直接跌到50%。Qwen3-VL-235B从85%掉到25%以下。研究者把这叫"复杂度鸿沟"(complexity gap)。
简单说:考场换真刀真枪,优等生直接变学渣。
翻车现场:两种死法
错误分析揭示了开源和闭源模型的不同崩溃模式。
开源模型死在执行层。Qwen3-VL和InternVL这类模型经常编造不存在的库,或者调用无效函数。想象一个程序员 import 了一个叫 pandas_pro_plus 的包,然后报错 ModuleNotFoundError——这就是开源模型的日常幻觉。
闭源模型死在理解层。Claude 4.5 Opus和Gemini 3 Pro能生成可运行代码,但视觉还原度崩了。颜色映射错误、坐标轴刻度对不上、图例位置偏移——代码能跑,图是错的。这在业务场景里更危险,因为表面看起来正常,决策依据却是歪的。
迭代修复任务暴露的问题更深层。模型在对话中经常"失忆",前面确认过的需求后面推翻,或者把修好的代码改回bug状态。这种上下文漂移在真实开发中足以让人抓狂。
为什么这事很重要
数据可视化是AI落地企业的关键接口。财务分析、运营监控、市场研究,这些场景的核心交付物就是图表。如果AI在这个环节掉链子,意味着从"自然语言直接出洞察"的愿景还有相当距离。
当前市场的叙事是:大模型已经能替代初级数据分析师。RealChart2Code的测试结果给出了更精确的边界——简单图表可以,复杂业务报表不行;单轮生成可以,多轮迭代调试吃力;闭源模型勉强可用,开源模型尚难投产。
对于技术选型,这份基准提供了硬指标。如果你在评估AI可视化方案,建议直接拿自己的真实报表数据做测试,别被Demo里的漂亮图表忽悠。复杂度鸿沟的存在意味着,实验室成绩和生产线表现可能是两个世界。
对于模型开发者,错误模式的差异指向不同的优化路径。开源团队需要解决代码可执行性,这是基础工程问题;闭源团队要攻克视觉语义对齐,这是认知理解问题。两者都不是短期能攻克的。
一个被忽视的变量
测试数据全部来自Kaggle,这意味着什么?
Kaggle数据集以结构化表格为主,字段定义清晰,数据质量相对较高。真实企业数据往往是半结构化日志、埋点乱码、字段命名随意(比如把用户ID叫 uid、user_id、UserId、x1)。如果模型在Kaggle数据上都翻车,面对更脏的企业数据会怎样?
研究者没有测试这个维度,但这是落地层面的关键变量。数据清洗目前仍是数据工程师的核心价值,AI短期内替代不了。
另一个未解问题是长上下文。8600万行数据不可能全塞进提示词,模型如何处理采样、聚合、分层?RealChart2Code的测试设计隐含假设了数据预处理已经完成,但真实工作流中这往往是最大耗时环节。
行业影响预判
短期内,AI可视化工具的定位会重新校准。从"一句话生成任意图表"退守到"辅助程序员快速出原型",从"替代分析师"变成"分析师的草稿助手"。这个预期回调会影响相关产品的商业化节奏。
中期来看,垂直优化会出现。针对特定行业(金融、电商、医疗)的图表类型做专项训练,在限定场景内缩小复杂度鸿沟。这是AI落地的经典路径:先收窄范围,再逐步扩展。
长期变量在于多模态架构演进。当前的视觉-语言模型是否适合代码生成任务?或者需要专门的视觉-代码联合表征?RealChart2Code暴露的瓶颈可能催生新的模型设计范式。
一个具体建议:如果你正在做AI+BI产品,把迭代修复能力作为核心指标。单轮生成准确率已经被过度优化,对话中的上下文保持、意图澄清、渐进修正才是真实用户体验的决胜点。这方面的技术储备现在还很薄弱。
8.6亿行数据,14个模型,50种图表类型,最高8.2分——这组数字框定了当前AI可视化的能力边界。不是不能用,是别高估。
热门跟贴