哈工大团队创造AI评判官：让机器学会给创意修图打分|世界纪录|业余选手|哈工大|奥运会

这项由哈尔滨工业技术大学、华为诺亚方舟实验室以及鹏城实验室合作完成的研究发表于2026年3月27日，论文编号为arXiv:2603.26174v1。对于想要深入了解技术细节的读者，可以通过该编号查询完整论文。

在这个人人都是修图师的时代，从简单的美颜滤镜到复杂的AI生成图片，图像编辑已经变成了我们日常生活的一部分。但有个问题一直困扰着开发者：当AI修图软件按照用户的要求"把这张照片变成油画风格"或"把这个人物变成卡通形象"时，我们怎么知道它做得好不好？就像一道菜做出来了，总得有人来品尝判断味道如何，AI修图的成果也需要有个"评判官"来打分。

以往的评分方法就像只看菜的外观颜色就给分，往往忽略了很多重要细节。比如一张照片要求把人物变成Q版卡通形象，传统评分系统可能只看卡通化程度，却忽略了人物的眼睛颜色是否保持原样、衣服款式有没有保留等关键信息。这种粗糙的评分方式就像用放大镜看树叶却看不见整片森林，既不全面也不够精准。

哈工大的研究团队就像发明了一套新的"美食评委制度"，他们创造了一个名为CREval的智能评分系统，这个系统不再满足于简单的好坏判断，而是学会了像专业评委一样，从多个角度仔细品评每一张修改后的图片。更重要的是，这个评分系统特别擅长处理那些充满创意和复杂要求的修图任务，就像从评判家常菜升级到评判米其林餐厅的创意料理。

传统的评分方法就像一个只会说"好"或"不好"的机器人，而CREval则像一位经验丰富的艺术老师，不仅会告诉你最终成绩，还会详细解释为什么这样打分，哪些地方做得好，哪些地方还需要改进。这种透明化的评分方式让开发者们终于知道自己的AI模型到底强在哪里，弱在哪里，就像学生拿到试卷不仅看到分数，还能看到每道题的详细批改意见。

研究团队不仅开发了这套评分系统，还专门构建了一个包含800多个复杂创意修图案例的测试集，就像为这位新评委准备了各种类型的考试题目。这些题目涵盖了从把真人照片变成可爱公仔，到将风景图片转换成梦幻插画等九大创意类别，确保评分系统能够应对各种奇思妙想的修图需求。

一、智能评委的三重考核标准

就像品鉴一道精致料理需要从色香味三个方面来评判，CREval系统也建立了三个互补的评分维度，每个维度都像一位专业评委，负责检查修图结果的不同方面。

第一个评委叫做"指令跟随度评委"（Instruction Following），它的工作就像检查厨师是否严格按照食谱来做菜。当用户要求"把这张人物照片变成中国传统婚服风格的Q版人物，背景要有红色喜字"时，这位评委就会仔细检查最终结果：人物是否真的变成了Q版风格？婚服的细节是否到位？喜字背景有没有出现？评分过程不是简单的是非判断，而是通过一系列具体问题来检验，比如"人物的头身比例是否符合Q版特征？"、"服装是否具有传统中式婚服的典型元素？"等等。

第二个评委是"视觉一致性评委"（Visual Consistency），它的任务就像确保菜品的主要食材没有走味变质。在图像修改过程中，有些特征应该保持不变，比如人物的基本轮廓、标志性配饰或者独特的面部特征。这位评委会仔细比对原图和修改后的图片，确保该保留的特征都原封不动地保存了下来。有趣的是，这个系统还很聪明，它知道不同特征的重要性是不一样的。比如在修改著名画作《戴珍珠耳环的少女》时，那颗标志性的珍珠耳环就会被标记为最重要的特征，因为没有了珍珠耳环，这幅画就失去了最核心的辨识度。

第三个评委叫做"视觉质量评委"（Visual Quality），它就像挑剔的美食评委，专门检查成品的精美程度。它会仔细观察修改后的图片是否自然流畅，有没有出现奇怪的扭曲、不协调的颜色搭配，或者不自然的纹理效果。比如说，如果把人物变成陶瓷雕像风格，这位评委就会检查陶瓷质感是否真实可信，光泽反射是否符合陶瓷材质的物理特性，人物姿态是否自然协调。

这三位评委的打分不是简单相加，而是有着巧妙的权重设计。指令跟随度和视觉一致性各占40%的权重，因为它们是判断修图成功与否的核心标准；而视觉质量占20%的权重，主要是因为当前的AI评分系统在判断细微的视觉质量问题上还存在一定局限性。这种权重分配就像考试时不同题目有不同分值，确保最重要的评分标准得到最大的关注。

更令人惊喜的是，这套评分系统完全摒弃了以往那种"黑盒子"式的打分方式。以前的评分系统就像一个沉默的裁判，只给你一个分数，却不告诉你为什么这样打分。而CREval就像一位耐心的老师，它会把每个评分标准细化为具体的问题，比如"修改后的人物是否保留了原有的发型特征？"、"背景颜色是否与指令要求一致？"然后根据每个问题的答案来计算最终得分。这样，开发者们就能清楚地知道他们的AI模型在哪些方面表现出色，在哪些方面还需要改进。

二、创意修图的九个武功门派

为了全面测试各种AI修图模型的能力，研究团队就像武侠小说中的高手一样，把创意修图分成了九个不同的"武功门派"，每个门派都有自己的独门绝技和考验标准。这九个门派被巧妙地组织成三大类别，就像把不同的武功心法归类到内功、外功和轻功一样。

第一大类别叫做"个性定制类"，就像裁缝为每个客户量身定制衣服一样，这类修图主要是对原有对象进行创意改造。在这个大类别下，有三个专门的门派。

"衍生角色门派"专门负责把真人或真实物体变成各种可爱的衍生形象，比如把一个人变成Q版玩偶、吉祥物或者手办模型。这就像动画师把真人明星设计成卡通形象一样，需要保持原有特征的同时增加萌化效果。研究团队发现，这类任务虽然看似简单，但要在保持人物辨识度的同时实现风格转换，对AI来说是个不小的挑战。

"重新包装门派"则是把原有内容重新包装成全新的展示形式，比如把一张普通照片变成邮票、明信片或者装饰画。这就像把一首歌重新编曲一样，内容本质不变，但表现形式完全不同。这类任务特别考验AI对于不同媒介特性的理解能力。

"奇幻变身门派"是最具想象力的一个门派，专门创造现实中不存在的奇幻生物和场景，比如把普通动物变成神话中的神兽，或者把人物变成游戏中的角色。这类任务就像科幻电影的特效制作，需要AI具备强大的想象力和创造力。

第二大类别是"情境植入类"，就像舞台导演为演员安排不同场景一样，这类修图主要是为对象创造特定的使用场景或商业环境。

"容器场景门派"专门把对象放入各种装饰性容器中，比如水晶球、展示柜或者雪花玻璃球。这就像博物馆的展品陈列，需要考虑对象与容器的协调性以及整体的观赏效果。研究发现，很多AI模型在处理这类任务时经常出现比例不协调或者光影不匹配的问题。

"商业设计门派"则是把图像内容转化为商业产品，比如包装设计、广告素材或者商品样机。这就像平面设计师的工作，需要考虑品牌形象、市场定位和视觉冲击力。这类任务对AI的商业美学理解能力提出了很高要求。

"信息叙事门派"专门创造具有故事性和信息传达功能的作品，比如把静态图像变成连环画、信息图表或者教育海报。这就像记者把新闻事件编写成通俗易懂的报道，需要AI理解如何用视觉语言讲述故事。

第三大类别是"艺术重塑类"，就像艺术家用不同的风格重新诠释同一个主题，这类修图主要是通过艺术化处理来重新呈现图像内容。

"艺术风格门派"专门进行各种艺术风格的转换，比如把照片变成油画、水彩画或者版画效果。这就像艺术学院的学生用不同技法临摹同一幅作品，需要AI深刻理解不同艺术风格的特点和表现手法。

"文化变装门派"则是进行跨文化的身份转换，比如把现代人物变成古代皇室成员，或者进行不同民族文化的服饰变换。这类任务就像历史剧的服装设计，需要AI对不同文化的历史背景和审美特点有深入了解。

最后是"材质转换门派"，专门进行不同材质和形态的转换，比如把真人变成雕塑、拼图或者乐高积木模型。这类任务就像雕塑家用不同材料创作同一个主题，需要AI理解不同材质的物理特性和视觉效果。

通过这九个门派的全面测试，研究团队发现当前的AI修图模型各有所长。有些模型擅长处理风格转换，但在保持细节方面表现不佳；有些模型在创意想象方面很强，但在技术精度上还有待提升。这就像武林大会上各门各派展示绝技，每个门派都有自己的优势和短板，没有哪个模型能在所有方面都做到完美。

三、从"一言堂"到"法庭辩论"的评分革命

以往的图像编辑评分系统就像一个独断专行的皇帝，只会简单地宣布"这张图好"或"那张图不好"，却从不解释自己的判断依据。开发者们拿到这样的评分结果，就像学生收到一张只有总分没有单项分数的成绩单，完全不知道自己哪里做得好，哪里需要改进。更要命的是，这种"一言堂"式的评分往往不够全面，可能忽略了很多重要的细节问题。

CREval系统彻底改变了这种局面，它就像把独裁制度变成了民主法庭。在这个"法庭"里，不再是一个人说了算，而是通过一系列结构化的问题和答案来进行公开、透明的评判。每一个评分维度都会被细分为多个具体问题，就像法庭上的律师会逐一列举证据一样。

比如说，当AI被要求把一张人物照片转换成中式传统婚服的Q版形象时，指令跟随度评委不会简单地给出一个分数，而是会提出一系列具体问题："人物是否呈现了Q版特有的大头小身比例？"、"服装是否具备中式婚服的典型元素如盘扣、立领等？"、"背景是否出现了传统婚庆元素？"每个问题都有明确的"是"或"否"答案，最终根据正确答案的比例来计算得分。

这种方法的巧妙之处在于，它把抽象的评判标准变成了可以具体检验的问题。就像医生诊断病情不能仅凭感觉，而要通过一系列具体的检查项目来确定，CREval也是通过具体问题来确保评分的准确性和可靠性。

更重要的是，这个系统在处理视觉一致性评分时展现出了令人惊喜的智慧。它不会机械地要求所有原图特征都必须保留，而是会根据修图指令的要求，智能地区分哪些特征应该保持不变，哪些特征允许改动。比如，如果要求把《蒙娜丽莎》变成现代服装风格，系统就知道蒙娜丽莎标志性的微笑和眼神必须保留，但服装是可以改变的。

系统还会给不同的保留特征分配不同的重要性权重。那些对于原图辨识度至关重要的特征会被分配3分的权重，比较重要的特征分配2分权重，次要细节则分配1分权重。这就像考试时不同题目有不同分值，确保最关键的特征得到最大关注。以《戴珍珠耳环的少女》为例，那颗标志性的珍珠耳环就会被分配最高权重，因为它是这幅画最核心的识别特征。

在视觉质量评估方面，系统也摒弃了以往那种模糊的"好看不好看"判断，而是针对具体的技术问题进行检查。它会问一些非常具体的问题，比如"修改后的图像是否存在不自然的色彩过渡？"、"人物的手部是否保持了正常的五指结构？"、"材质转换后的光影效果是否符合该材质的物理特性？"

这种详细的问题式评分方法带来了革命性的改变。开发者们不再需要猜测自己的模型哪里出了问题，而是可以看到清晰的诊断报告。如果一个模型在"指令跟随度"方面得分很高，但在"视觉一致性"方面表现不佳，开发者就知道应该重点改进模型对原图特征的保留能力。这就像汽车出了故障，修理师可以通过详细的检测报告准确定位问题所在，而不是盲目地四处寻找。

四、AI修图界的"奥运会"比赛结果

研究团队就像举办了一场AI修图界的奥运会，邀请了13个来自世界各地的顶尖选手参赛，其中包括9个"业余选手"（开源模型）和4个"职业选手"（闭源商业模型）。这场比赛的规模可谓空前，每个参赛选手都要完成800多道复杂的创意修图题目，涵盖前面提到的九个不同门派的挑战。

比赛结果既在意料之中，又充满了意外。在总体表现上，商业化的职业选手确实展现出了明显优势，但令人惊喜的是，一些优秀的业余选手也表现得相当出色，有时甚至能够击败某些知名的职业选手。

夺得冠军的是Seedream 4.0，这个来自商业公司的模型就像一位全能型运动员，在三个评分维度上都保持了稳定的高水准表现。它的总分达到了83.43分，在指令跟随度方面得到89.12分，视觉一致性73.44分，视觉质量更是高达92.01分。这个成绩就像奥运会全能项目的金牌得主，虽然单项可能不是最强，但综合实力最为出色。

亚军则是开源模型中的佼佼者Qwen-Image-Edit-2509，总分79.78分。这个结果让很多人感到意外，因为它竟然超越了大名鼎鼎的GPT-Image-1模型。Qwen-Image-Edit在指令跟随度方面表现尤为突出，得分85.82分，证明了它在理解和执行复杂修图指令方面的出色能力。这就像一位来自小国家的运动员击败了传统体育强国的选手，让人刮目相看。

排在第三位的是Gemini 2.5 Flash Image，总分81.34分，这个谷歌出品的模型在各个方面都表现得相当均衡，没有明显的短板。紧随其后的是FLUX.1 Kontext系列模型，其中专业版得分74.88分，开发版得分74.81分，两个版本的表现几乎不相上下。

令人意外的是，GPT-Image-1虽然名气很大，但在这次比赛中只获得了78.97分，排名并不算靠前。通过详细分析发现，这主要是因为它在视觉一致性方面表现不佳，经常无法很好地保留原图中的关键特征。这就像一位技术很好的运动员，在某个关键环节老是出错，影响了整体成绩。

在业余选手组中，除了冠军Qwen-Image-Edit之外，FLUX.1 Kontext [dev]以74.81分获得亚军，表现相当稳定。Step1X-Edit系列模型也展现了不错的实力，普通版得分69.46分，"思考增强版"得分67.27分。有趣的是，这个"思考增强版"的表现反而不如普通版，说明有时候过度复杂化反而会适得其反。

Bagel模型在比赛中的表现也很有趣，普通版得分68.82分，"思考增强版"得分69.38分。虽然思考增强确实带来了一些提升，但提升幅度并不算大，这让研究人员开始思考是否值得增加这种额外的复杂性。

表现相对较弱的是一些传统模型，比如ICEdit只得到53.78分，UniWorld-V1得到65.37分。这些模型虽然在某些特定任务上可能有不错的表现，但在面对复杂创意修图任务时明显力不从心。

通过详细分析各个模型在不同门派中的表现，研究团队发现了很多有趣的现象。比如，大多数模型在"衍生角色"和"材质转换"任务上表现相对较好，因为这些任务有相对明确的转换规则。但在"奇幻变身"和"信息叙事"任务上，很多模型都遇到了困难，因为这些任务需要更高水平的创意理解和想象能力。

最让研究人员担心的是，几乎所有模型在视觉一致性方面的得分都不够理想，很多模型的这项得分都在70分以下。这说明当前的AI修图技术在保留原图关键特征方面还有很大改进空间，经常出现"改着改着就认不出原来是谁了"的问题。

五、真人评委与AI评委的"口味"对比

为了验证这套全新评分系统的可靠性，研究团队进行了一项特别的实验：让真人评委和AI评委对同样的修图作品进行打分，然后比较两者的"口味"是否一致。这就像美食节目中邀请专业评委和观众同时品尝，看看大家的喜好是否相近。

研究团队从六个代表性模型中精心挑选了200多个修图案例，涵盖了各种不同类型的创意修图任务。然后邀请了18位来自不同专业背景的真人评委进行评分，这些评委就像奥运会的裁判团一样，需要根据修图质量给出0到5分的评分。

实验结果令人鼓舞。CREval系统的评分结果与真人评委的喜好呈现出了很高的一致性，相关性系数达到了令人满意的水平。更具体地说，当CREval认为某个修图作品质量很高时，真人评委往往也给出了较高的分数；当CREval指出某个作品存在明显问题时，真人评委也通常给出了相对较低的评分。

在这次对比实验中，几个有趣的细节浮现出来。Seedream 4.0不仅在AI评分中夺得冠军，在真人评委心中的地位也是最高的，平均得分达到72.01分。这说明这个模型确实在各个方面都达到了很高的水准，不管是从技术角度还是从普通用户的审美角度来看都很出色。

Qwen-Image-Edit-2509和GPT-Image-1在真人评委那里的得分非常接近，分别是63.49分和63.21分，这与AI评分的结果基本一致。有趣的是，虽然GPT-Image-1在AI评分中主要输在了视觉一致性方面，但真人评委似乎对这个问题没有那么敏感，更多关注的是最终效果的整体美观度。

Gemini 2.5 Flash Image在真人评委中获得了66.14分，排名第三，这与AI评分的排名也基本吻合。FLUX.1 Kontext [dev]和Bagel的真人评分分别是51.77分和49.98分，相对较低，这主要是因为这些模型在处理复杂创意任务时经常出现一些明显的错误，影响了整体的观感。

为了进一步验证评分系统的稳定性，研究团队还尝试用不同的AI模型作为评委来进行打分。他们发现，虽然不同AI评委给出的具体分数可能有所差异，但对各个模型的相对排名判断基本保持一致。这就像不同的美食评委可能有不同的打分习惯，但对于哪道菜更好吃的判断通常是一致的。

特别值得一提的是，研究团队还发现了一个有趣现象：当使用Qwen3-VL作为评委时，它对同门师兄Qwen-Image-Edit-2509的评分相对保守一些，这可能是因为"知根知底"反而看出了更多细节问题。但这种细微差别并不影响整体排名的可靠性。

通过这次真人评委与AI评委的对比实验，研究团队证明了CREval系统确实能够很好地反映人类对修图质量的真实感受。这意味着开发者们可以放心地使用这套系统来评估和改进自己的模型，因为在CREval上的好成绩很可能也会得到真实用户的认可。

六、开启AI修图新时代的钥匙

这项研究的意义远远超出了单纯的技术评测，它更像是为整个AI修图领域制定了一套新的"游戏规则"。在此之前，各家公司都在各自为政地开发修图AI，缺乏统一的评判标准，就像没有统一度量衡的市场一样混乱。现在有了CREval这把标准的"尺子"，整个行业终于可以在同一个起跑线上公平竞争了。

对于普通用户来说，这项研究的价值也是实实在在的。当你使用各种修图应用时，那些在CREval测试中表现出色的AI模型很可能会给你带来更好的使用体验。比如，如果你想把自己的照片变成动漫风格的头像，选择在"艺术风格转换"任务中得分较高的模型，成功率会大大提升。

更重要的是，CREval系统揭示了当前AI修图技术的真实水平和主要短板。研究结果显示，虽然现在的AI已经能够完成很多令人惊艳的创意修图任务，但在保持原图关键特征这方面还有很大改进空间。这就像告诉整个行业："大家的创意能力都不错，但细节把控还需要加强。"

从技术发展的角度来看，这项研究为未来的AI修图技术指明了几个重要方向。首先是如何更好地理解和执行复杂的创意指令，特别是那些涉及多个要求的综合性任务。其次是如何在进行大幅度风格转换的同时，精准保留那些对识别度至关重要的原图特征。最后是如何提升生成图像的整体质量，减少那些明显的技术瑕疵。

对于AI研究者和开发者来说，CREval提供了一个宝贵的研究工具。他们不再需要依赖主观判断或者简陋的评测方法，而是可以使用这套经过严格验证的评分系统来客观地评估自己的技术进展。这就像科学研究有了精确的测量仪器，能够更准确地发现问题和验证改进效果。

这项研究也为整个人工智能领域的评测方法论贡献了新的思路。传统的AI评测往往依赖于"黑盒子"式的整体打分，而CREval展示了如何通过问答式的结构化评测来实现透明化和可解释性。这种方法不仅适用于图像编辑，也可以推广到其他需要复杂评测的AI应用领域。

从商业角度来看，这套评测标准有望推动整个AI修图市场的健康发展。用户可以根据客观的评测结果来选择最适合自己需求的产品，而不是被夸大的宣传所误导。这种透明化的竞争环境最终会促使所有厂商都专注于提升真正的技术实力，而不是在营销上做文章。

研究团队在论文中也诚实地指出了当前系统的一些局限性。比如，AI评委在判断细微的视觉质量问题时还不够敏感，这就是为什么在最终评分中视觉质量的权重相对较低。随着未来AI技术的进步，这些权重可能需要相应调整。

另外，当前的评测主要针对静态图像，对于视频编辑、动态效果等更复杂的应用场景还需要进一步扩展。但这项研究已经为这些未来的发展奠定了坚实的基础，就像建房子先打好了地基一样。

说到底，这项研究最大的价值在于它让AI修图技术的发展变得更加透明和有据可循。以前大家都在摸着石头过河，现在终于有了明确的方向指引。对于整个AI行业来说，这种严谨的评测方法论和开放的研究态度，正是推动技术进步和行业健康发展的关键因素。

未来，当你再次使用AI修图应用时，或许可以留意一下这些应用背后的技术在CREval测试中的表现。那些得分更高的模型，很可能会给你带来更加满意和稳定的使用体验。而对于那些正在开发AI修图技术的团队来说，CREval就像一面明镜，让他们能够清楚地看到自己技术的优势和不足，从而更有针对性地进行改进和优化。

Q&A

Q1：CREval评分系统是如何工作的？

A：CREval就像三位专业评委组成的评审团，分别从指令跟随度、视觉一致性和视觉质量三个角度来评判AI修图作品。它不是简单打个总分，而是通过具体的问答形式来检查每个方面，比如"人物特征是否保留"、"风格转换是否到位"等，最后根据答对问题的比例来计算得分。

Q2：目前哪些AI修图模型表现最好？

A：在CREval测试中，Seedream 4.0表现最佳，总分83.43分，是个全能型选手。令人惊喜的是，开源模型Qwen-Image-Edit-2509以79.78分排名第二，甚至超过了知名的GPT-Image-1。Gemini 2.5 Flash Image排第三，得分81.34分。

Q3：AI修图技术现在还存在哪些问题？

A：研究发现，目前AI修图的最大问题是视觉一致性不够好，也就是在修图过程中经常丢失原图的重要特征，比如把人改得认不出来了。另外，在处理复杂创意任务时，很多模型还容易出现不自然的效果或技术瑕疵。不过整体来说，AI修图技术已经相当成熟，能够完成很多令人惊艳的创意任务。