打开网易新闻 查看精彩图片

这项由香港理工大学数据科学与人工智能系以及应用数学系联合开展的研究发表于2026年1月,论文编号为arXiv:2601.13591v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

在人工智能飞速发展的今天,我们经常听到AI可以写文章、画图片、甚至编程序。但你是否想过,AI能不能像专业的数据科学家那样,面对一堆复杂的数据,从零开始进行完整的分析,最终得出有价值的结论呢?这就像问一个机器人能否独自完成从采购食材到烹饪出一桌美味佳肴的全过程一样。

香港理工大学的研究团队就面临着这样一个挑战:如何准确评估AI在数据科学领域的真实能力。要知道,数据科学不同于简单的代码编写,它更像是一门需要综合运用多种技能的艺术。一个优秀的数据科学家需要具备敏锐的洞察力来理解数据背后的故事,扎实的编程能力来处理复杂的计算,以及清晰的表达能力来将发现传达给别人。

以往的评估方法就像只看厨师会不会切菜,而忽略了他们是否真的能做出一道完整的菜。大多数现有的测试要么只关注代码是否正确,要么只检查最终答案是否匹配,完全没有考虑到数据科学工作的复杂性和开放性。更重要的是,现实中的数据科学项目往往涉及多种类型的数据,包括文字、图片、时间序列等,而传统的评估方法通常只能处理单一类型的数据。

正是在这种背景下,研究团队开发了一个名为DSAEval的全新评估系统。这个系统就像是为数据科学AI设计的"全能考试",不仅要求AI展示编程技能,更要考察它们是否真的理解数据、能否进行合理推理、是否具备处理多种数据类型的能力。

研究团队构建了一个包含641个真实世界数据科学问题的庞大题库,这些问题来源于285个不同的数据集,涵盖了从传统的表格数据分析到复杂的计算机视觉和自然语言处理任务。更令人印象深刻的是,这个系统还引入了多模态环境感知功能,让AI不仅能"看"文字和数字,还能"理解"图表、可视化结果等视觉信息,就像人类数据科学家一样能够综合各种信息来源。

为了模拟真实的数据科学工作流程,系统还设计了多轮交互机制。这意味着AI需要像真正的科学家一样,一步步推进分析过程,前面的发现会影响后续的决策,整个过程环环相扣,不能出现逻辑断层。

最终的评估也不再是简单的对错判断,而是从推理过程、代码质量和最终结果三个维度进行综合评分,就像评价一位厨师不仅要看菜的味道,还要观察烹饪过程是否规范、食材处理是否得当一样。

研究团队对11个当前最先进的AI模型进行了全面测试,结果既令人鼓舞又发人深省。Claude-Sonnet-4.5在综合表现上拔得头筹,GPT-5.2展现出了最高的效率,而MiMo-V2-Flash则在成本效益方面表现最佳。更有趣的是,当AI能够"看见"图表和可视化结果时,它们在视觉相关任务上的表现提升了2.04%到11.30%,这证明了多模态能力的重要性。

然而,测试结果也揭示了当前AI的局限性。虽然这些智能系统在处理结构化数据和常规分析任务时表现出色,但在面对非结构化数据和复杂的深度学习任务时仍然存在明显短板。这就像一个厨师可能擅长做家常菜,但在面对分子料理时就力不从心了。

一、构建真实世界的数据科学考场

要评估AI的数据科学能力,首先需要一个足够真实、全面的"考试环境"。研究团队面临的第一个挑战就像是要为不同专业背景的学生设计一场公平而全面的考试一样复杂。

传统的评估方法存在一个根本性问题:它们往往过于简化。就好比只让钢琴家弹奏音阶来评估他们的音乐造诣,而忽略了演奏一首完整乐曲所需要的情感表达、技巧运用和整体把控能力。真实的数据科学工作是一个复杂的端到端过程,从理解问题开始,到数据清洗、探索性分析、建模、验证,最后到结果解释,每个环节都至关重要。

为了解决这个问题,研究团队从超过2000个开源数据科学数据集和竞赛中精心筛选素材,同时还参考了50本权威的数据科学和统计学教科书。这个过程就像是从世界各地收集食谱,确保涵盖不同菜系、不同难度级别,最终形成一本真正实用的烹饪大全。

在数据收集完成后,团队采用了严格的多阶段筛选机制。他们首先剔除了那些质量不高的案例,比如解决方案过于简短、缺乏清晰答案、重复主题或者依赖外部不可获得数据集的项目。这个过程类似于质检员检查产品质量,确保每一个进入最终测试集的案例都具备足够的代表性和挑战性。

接下来,研究团队利用GPT-5和Grok-4等先进的AI模型来合成具体的问题、推理过程和相应答案。这些AI生成的内容作为"软性标准答案",为后续的评估提供参考基准。这种方法的巧妙之处在于,它承认了数据科学问题往往没有唯一正确答案的现实,但仍然提供了一个合理的评判标准。

最终构建的DSAEval基准测试包含了285个异构数据集和641个不同的问题,覆盖面极其广泛。在数据类型方面,虽然表格数据占主导地位(79.1%),但系统还包含了时间序列数据(9.1%)、文本数据(5.8%)和图像数据(4.2%),确保了多样性。

在问题领域分布上,传统的数据分析任务占据了54.3%的比重,但系统同样涵盖了时间序列分析(10.4%)、领域特定应用(7.2%)、自然语言处理(6.0%)、计算机视觉(4.4%)、商业分析(3.9%)、聚类分析(2.9%)和统计测试与实验(2.3%)等多个专业领域。

从任务类型的角度来看,数据准备和整理工作占比最大(21.9%),其次是报告和解释(14.7%)、特征工程和准备(13.4%)、探索性数据分析(12.3%)、数据集成(11.6%)、模型评估(7.9%)、模型训练(7.5%)和统计推断(6.2%)。这种分布反映了真实数据科学工作的特点:大量时间花在数据准备上,而模型构建只是整个流程中的一个环节。

二、创造智能感知的测试环境

传统的代码评估就像是让人蒙着眼睛做菜,只能依靠听觉和触觉,却看不到食材的颜色变化和烹饪过程中的视觉反馈。真实的数据科学工作中,科学家们需要不断观察数据可视化结果、分析图表趋势、检查模型输出的图形化表示,这些视觉信息对于做出正确判断至关重要。

研究团队认识到,如果要真正评估AI的数据科学能力,就必须让它们具备类似人类的多模态感知能力。于是他们设计了一个突破性的多模态环境感知系统,让AI不仅能读取文本和数据,还能"看见"和理解各种图表、可视化结果。

这个系统的工作原理就像给AI安装了一双能够理解图形的"眼睛"。当AI执行代码生成图表时,系统会自动捕获这些视觉输出,并将其转换为AI可以理解的格式。具体来说,系统将观察结果分为三种模态:文本输出(包括标准输出和错误日志)、表格数据(如数据框预览和markdown表格)以及图像输出(如matplotlib生成的图表)。

更重要的是,整个测试环境被设计为一个持久的沙盒系统,配备了专门的Jupyter Notebook内核和GPU加速功能。这意味着AI在整个测试过程中可以保持状态连续性,就像真正的数据科学家在工作中可以逐步构建分析流程,前面定义的变量和中间结果可以在后续步骤中继续使用。

为了模拟真实的数据科学工作模式,系统还引入了多轮查询交互机制。这种设计反映了现实中数据科学项目的迭代性特征:科学家通常不是一次性完成所有工作,而是通过多个相互关联的步骤逐步推进。每个查询任务都建立在前面工作的基础上,形成一个连贯的分析链条。

在技术实现上,系统为每个测试会话定义了一个包含数据集、查询序列和初始上下文的结构。对于每个具体查询,AI需要基于当前历史记录和之前的观察结果来生成思考过程和可执行代码。系统会持续维护沙盒内核的状态,确保变量和计算结果在整个会话中保持有效。

测试完成后,系统会生成两个关键输出:一个完整的代码笔记本(包含所有执行过的代码单元)和一份最终的文本报告(总结核心推理步骤、代码逻辑和查询答案)。这种双重输出设计确保了评估的全面性,既考察了AI的编程实现能力,也检验了其表达和总结能力。

三、建立多维度智能评判体系

评估开放性数据科学任务就像评判一场即兴表演,不能简单地用对错来衡量,而需要从多个角度综合考量表演者的创意、技巧和最终效果。传统的精确匹配评估方法在这里完全失效,因为同一个数据科学问题往往存在多种合理的解决方案,每种方案都可能有其独特的价值和洞察。

研究团队创新性地引入了基于大语言模型的多维度评估协议,利用专门的"评判模型"来对AI的表现进行全面评估。这种方法的核心理念是模仿人类专家的评估思维:不仅关注最终结果,更重视解决问题的过程和方法的合理性。

评估系统将AI的表现分解为三个核心维度进行打分。推理过程评估关注的是概念逻辑的严密性和方法选择的合理性。评判模型会仔细检查AI是否选择了适合问题类型的统计或机器学习技术,是否遵循了数据科学的核心原则,逻辑流程是否连贯清晰。这就像评价一位厨师是否选对了烹饪方法、是否遵循了正确的操作顺序。

代码步骤评估则专注于技术实现的质量。系统会检查生成的代码是否完整正确、逻辑是否连贯、是否存在致命错误,以及是否成功产生了支持最终结论所需的中间输出。这个维度确保AI不仅有好的想法,还能将想法正确地转化为可执行的程序。

最终结果评估采用了最为开放和灵活的标准,重点关注输出的整体质量,包括定量指标、定性洞察和可视化效果。特别值得注意的是,这个评估维度接受与参考答案不同但同样有效甚至更优的解决方案,体现了数据科学领域的开放性和创新性特征。

在具体的评分机制上,系统采用加权求和的方式计算总分:推理过程占30%、代码步骤占30%、最终结果占40%。这种权重分配略微偏向结果导向,同时确保过程的重要性得到充分体现。这种平衡反映了数据科学实践中既要有正确的思路和可靠的实现,更要有有价值的发现和洞察。

为了确保评估的客观性和一致性,研究团队选择了两个独立的评判模型:Claude-Haiku-4.5和GPT-5.1,并将它们的平均分数作为最终评估结果。这种设计有效地减少了单一模型可能存在的偏见,提高了评估的可靠性。

整个评估过程还引入了一致性检查机制,确保AI在最终报告中声称的结果确实是其代码执行产生的,避免了"口是心非"的情况。这种设计特别重要,因为它确保了评估的是AI真实的数据科学能力,而不是其编故事的能力。

四、全方位测试揭示AI数据科学真实水平

研究团队选择了11个当前最先进的大语言模型和视觉语言模型进行全面测试,这些模型来自不同的机构和技术路线,包括封闭源码的商业模型(如GPT-5.2、Gemini-3-Pro、Claude-4.5-Sonnet等)和开源模型(如DeepSeek-V3.2、Qwen3-VL-30b等),确保了评估的广泛性和代表性。

测试结果展现出了一个清晰的性能层次结构。Claude-Sonnet-4.5以8.164分的总分位居榜首,展现出了最强的综合数据科学能力。紧随其后的是GPT-5.2(7.713分)、Mimo-v2-Flash(7.644分)和Gemini-3-Pro(7.309分)。值得注意的是,开源模型MiniMax-M2以7.642分的成绩超越了多个商业模型,显示出开源技术的强劲发展势头。

相比之下,一些较小或更专门化的模型表现则相对逊色,如Qwen3-VL-30b(5.324分)和Mistral-3-14B(5.182分),这表明模型规模和训练策略对数据科学能力有显著影响。

从细分领域的表现来看,结果既令人鼓舞也发人深省。在结构化数据处理方面,所有模型都表现出了强劲的能力,在数据分析和商业分析任务中,顶级模型的得分接近8.0分,显示出它们在传统数据科学任务上已经达到了相当高的水平。

然而,当面对非结构化数据时,所有模型的表现都出现了明显的下降。计算机视觉和自然语言处理成为了最具挑战性的领域,平均得分分别只有6.18和6.10分。这种差距揭示了当前AI在处理复杂深度学习工作流程方面仍然存在显著的局限性。

从工作流程阶段的角度分析,AI表现出了有趣的能力分布特征。它们在数据科学流程的早期阶段表现优异,在数据接入与整合、数据准备与整理等任务中consistently取得高分,显示出对Pandas、NumPy等标准工具库的熟练掌握。

但是,在流程的后期阶段,特别是预测与预测、模型训练与优化等任务中,所有模型的表现都显著下降,平均得分分别只有5.86和6.33分。这种表现模式表明,当前的AI更像是熟练的数据处理员,而不是具备深度分析直觉的数据科学专家,它们在需要迭代实验和深度分析洞察力的复杂任务上仍然力不从心。

五、效率与成本的平衡艺术

在评估AI数据科学能力时,仅仅关注最终表现是不够的,就像评价一个员工不能只看工作质量,还要考虑工作效率和成本效益一样。研究团队对各个模型的运行效率和经济成本进行了深入分析,为实际应用提供了宝贵的参考。

在运行效率方面,GPT-5.2展现出了令人印象深刻的表现。它能够在消耗相对较少的计算资源(平均约20000个token)的情况下达到7.713分的高分,展现出了果断的推理能力,避免了冗余的迭代。这种高效性反映了模型优秀的"思维敏捷度",能够快速定位问题核心并给出解决方案。

相比之下,虽然Claude-Sonnet-4.5在总分上表现最佳,但它的效率相对较低,平均需要消耗约320000个token才能完成任务。这种模式反映出该模型采用了"试错与自我修正"的策略,通过大量的迭代和调整来追求更高的精确度。虽然最终效果更好,但代价是更高的计算成本。

从经济成本的角度来看,MiMo-V2-Flash成为了最具性价比的选择。它能够以大约0.007美元的成本完成单个任务,同时保持与高端商业模型相当的性能表现。这种经济性使其在大规模应用场景中具有显著优势。

与之形成鲜明对比的是,Claude-Sonnet-4.5虽然性能卓越,但单个任务的成本高达约1.08美元,是MiMo-V2-Flash的150多倍。这种成本差异表明,虽然顶级模型在性能上有一定优势,但这种边际改进需要付出指数级增长的经济代价。

两个开源模型Ministral-3-14b和Qwen3-VL-30b在效率和成本效益方面都表现相对较差,这可能与它们的规模限制和训练策略有关。这一结果提醒我们,并不是所有的模型都适合数据科学任务,选择合适的工具对于实际应用至关重要。

六、多模态感知的神奇效果

研究中最引人注目的发现之一是多模态环境感知对AI表现的显著提升效果。研究团队选择了三个代表性模型进行对比实验,将它们的多模态版本与纯文本版本进行比较,结果令人印象深刻。

在所有测试的视觉相关任务中,多模态能力都带来了显著的性能提升。其中,Qwen3-VL-30b在计算机视觉任务上的改进最为突出,性能提升达到了11.30%。这种显著改进表明,当AI能够"看到"图像和可视化结果时,它对视觉信息的理解和处理能力得到了质的飞跃。

在数据分析任务中,所有模型都获得了2.04%到3.69%的稳定提升。虽然这个数字看起来不算大,但在数据科学的精细化工作中,这种改进往往意味着从"基本可用"到"专业水准"的跨越。更重要的是,这种提升是一致性的,不是偶然现象。

探索性数据分析任务的改进尤其值得关注,所有模型平均获得了4.54%的提升。这是因为探索性分析严重依赖于对数据可视化结果的理解和解释,AI需要能够识别图表中的模式、异常和趋势,然后基于这些视觉线索做出进一步的分析决策。

模式与异常检测任务也展现出了类似的改进趋势。当AI能够直接观察数据的可视化表示时,它们更容易识别出隐藏在数字背后的模式和异常点。这就像医生不仅要看化验单上的数字,更要观察X光片和CT扫描图像一样,视觉信息提供了文本和数字无法传达的丰富信息。

这些结果深刻地说明了多模态能力在数据科学中的重要性。传统上,我们可能认为数据科学主要是处理数字和文字的工作,但实际上,优秀的数据科学家大量依赖于各种图表、可视化和图形化输出来理解数据、验证假设和传达发现。

更有趣的是,这种改进不仅体现在准确性上,还体现在AI的"直觉"上。能够看见可视化结果的AI更少出现与视觉证据相矛盾的幻觉性描述,它们的分析更加贴近实际观察到的现象。这种改进对于建立用户对AI数据科学能力的信任至关重要。

七、深层次的能力缺陷与改进方向

尽管测试结果显示了AI在数据科学领域的巨大潜力,但也清晰地揭示了当前技术的一些根本性局限。这些发现为未来的研究和开发指明了方向。

最显著的问题是AI在处理非结构化数据时的能力不足。虽然现代AI在文本生成和图像识别方面已经取得了令人瞩目的成就,但当涉及到复杂的数据科学工作流程时,特别是需要深度理解和创新性分析的场景中,AI仍然显得力不从心。

这种局限性在计算机视觉和自然语言处理的数据科学任务中表现得尤为明显。AI可能能够识别图像中的对象或理解文本的基本含义,但当需要设计复杂的特征工程策略、选择合适的模型架构或解释模型行为时,它们往往缺乏必要的深度洞察力。

另一个重要发现是AI在模型训练和优化方面的短板。这些任务通常需要大量的试错和迭代调整,需要对超参数、模型架构和训练策略有深刻的理解。当前的AI虽然能够执行标准的训练流程,但在面对复杂的优化挑战时,往往缺乏创新性的解决思路。

聚类和无监督学习任务也成为了AI的另一个薄弱环节。这类任务通常没有明确的标准答案,需要分析师具备强烈的探索精神和模式识别直觉。AI在这种开放性探索任务中的表现明显不如有监督学习任务,反映出它们在处理模糊性和不确定性方面的局限。

预测和预测任务的低分表现特别值得关注,因为这通常是数据科学项目的最终目标。AI在这个环节的困难可能源于多个因素:缺乏对业务背景的深度理解、对模型假设和限制条件的认识不足,以及在模型验证和结果解释方面的经验缺乏。

研究团队认为,解决这些问题需要从多个角度同时发力。首先是提升AI对复杂数据类型和任务的处理能力,这可能需要更先进的模型架构和更具针对性的训练策略。

更重要的是,未来的研究需要从单纯评估模型能力转向评估完整的智能系统。现实中的数据科学工作越来越依赖于多智能体协作、专业化流水线和复杂的系统级设计。单一模型的能力提升可能已经接近瓶颈,而系统级的创新可能是下一个突破口。

研究团队还指出了另一个重要的发展方向:将DSAEval扩展为更大规模的开放基准。他们计划逐步释放包含超过2000个数据集和10000个问题-推理-答案三元组的完整版本,为整个研究社区提供更丰富的评估资源。

此外,基于真实实验轨迹的大规模数据也可能成为训练下一代数据科学AI的宝贵资源。这些真实的问题解决过程记录可能比合成数据更好地反映专业数据科学家的思维模式和工作习惯。

八、技术突破的更广泛影响

DSAEval的意义远超过一个简单的测试基准,它代表了我们对AI能力评估方式的根本性转变。传统的AI评估更像是标准化考试,关注的是在预定义任务上的表现,而DSAEval更像是评估一个专业人士的实际工作能力。

这种评估理念的转变反映了AI技术发展的新阶段。随着基础能力的不断提升,AI开始承担越来越复杂和开放性的任务。在这种背景下,如何评估和改进AI的专业能力成为了一个关键问题。DSAEval提供的多模态、多轮次、多维度评估框架为解决这个问题提供了有价值的思路。

从实际应用的角度来看,这项研究的发现对于企业和研究机构选择和部署AI工具具有重要的指导意义。研究结果清楚地显示了不同模型在不同任务上的优劣势,以及成本效益的差异。这些信息可以帮助决策者根据具体需求和预算限制做出更明智的选择。

对于AI模型的开发者来说,DSAEval揭示的能力缺陷为未来的改进提供了明确的目标。特别是在非结构化数据处理、复杂推理和创新性问题解决方面的不足,为下一代AI系统的设计指明了方向。

多模态环境感知的显著效果也为AI系统设计提供了重要启示。研究结果表明,简单地增加视觉输入就能带来显著的性能提升,这提示我们在设计AI工具时应该更加重视多模态能力的整合。

从更广阔的视角来看,这项研究也反映了人工智能发展的一个重要趋势:从通用能力向专业能力的转变。虽然大语言模型在各种任务上都表现出了令人印象深刻的通用能力,但在特定专业领域的深度应用中,仍然需要更有针对性的设计和优化。

研究还揭示了AI在处理开放性问题时的局限性。数据科学工作的本质是探索性的,往往没有标准答案,需要创新思维和直觉判断。当前的AI虽然在执行既定流程方面表现出色,但在面对需要创新和探索的情况时仍然显得不足。这提醒我们,AI的发展不仅需要技术进步,还需要在认知模式和推理方式上的根本性突破。

说到底,DSAEval不仅仅是一个测试工具,更是我们理解AI能力边界和发展方向的一个窗口。它告诉我们,虽然AI在某些方面已经接近或超越人类水平,但在复杂的专业工作中,它们仍然有很长的路要走。这种认识对于我们合理期待AI的能力、设计更好的人机协作模式,以及推动AI技术的健康发展都具有重要意义。

更重要的是,这项研究展示了评估方法本身的重要性。正如我们无法用测试记忆力的方法来评估创造力一样,评估AI的专业能力需要全新的思路和工具。DSAEval在这方面的探索不仅推动了数据科学AI的发展,也为其他专业领域的AI评估提供了有价值的参考。

未来,随着AI技术的不断进步和应用领域的不断扩展,我们需要更多类似DSAEval这样的专业化评估工具。只有通过持续的严格评估和改进,我们才能真正实现AI在各个专业领域的深度应用,让人工智能成为人类专业工作的可靠伙伴。

Q&A

Q1:DSAEval评估系统跟传统的AI测试有什么不同?

A:DSAEval最大的不同是它评估AI的完整数据科学工作能力,而不是简单的代码对错。传统测试就像只看厨师会不会切菜,DSAEval要看厨师能否独自完成从采购食材到做出一桌好菜的全过程,包括推理能力、编程技能和结果解释能力。

Q2:为什么多模态感知对数据科学AI这么重要?

A:因为真实的数据科学工作大量依赖视觉信息,比如观察图表趋势、识别数据模式、检查可视化结果等。研究发现,当AI能"看见"这些图表时,表现提升了2.04%到11.30%,就像医生不仅要看化验单数字,更要看X光片一样。

Q3:目前最好的数据科学AI模型有哪些局限性?

A:虽然AI在处理表格数据和常规分析任务时表现出色,但在面对图像、文本等非结构化数据的复杂分析时仍然力不从心。特别是在需要创新思维的模型训练、优化和深度洞察的任务上,AI更像是熟练的数据处理员,而不是具备专业直觉的数据科学家。