来源:市场资讯

(来源:科技行者)

打开网易新闻 查看精彩图片

这项由复旦大学可信具身智能研究所、复旦大学上海多模态具身智能重点实验室、腾讯微信视觉团队以及华南理工大学共同开展的研究,以预印本形式发布于2026年6月23日,论文编号为arXiv:2606.24484v1,感兴趣的读者可通过该编号查阅完整原文。

你有没有见过海报上那种字母里藏着火焰、字体扭曲成波浪形、笔画里嵌入了花纹图案的"艺术字"?这类文字在商场招牌、游戏封面、杂志封面上随处可见,设计师们把它们叫做"WordArt",也就是艺术文字。这类字好看归好看,但对于AI来说,想把它们认出来简直是一场噩梦。

为什么呢?普通的文字识别,就像让人认出标准黑体印刷的报纸文字,整整齐齐、规规矩矩。但艺术字完全不一样——字母可能被拉伸成奇怪的形状,填充了复杂的纹理图案,排列成弧形或竖排,甚至字母轮廓里还藏着山川湖海的图案。这对AI来说,就好比让一个只受过阅读普通教科书训练的学生,突然去解读一幅书法作品,再熟悉的文字也会看得眼花缭乱。

正是为了解决这个难题,来自复旦大学和腾讯的研究团队构建了一套全新的系统,从"用什么数据训练AI"和"用什么模型结构识别"两个角度同时出发,让AI终于能更好地"读懂"这些花里胡哨的艺术字。他们把整套研究命名为WATER,即WordArt-oriented scene TExt Recognition(面向艺术字的场景文字识别)。

一、艺术字识别为何如此难:一个被长期忽视的角落

要理解这项研究解决的是什么问题,先要明白为什么艺术字识别一直是个特别棘手的挑战。

普通的文字识别技术,比如你手机上的扫描票据功能、银行自动读取支票上的数字,已经做得相当不错了。这些技术之所以好用,是因为普通文字的样式比较固定——字体大多是印刷体,颜色单一,背景干净,字母排列整齐。研究人员多年来积累了大量这类数据,训练出来的AI模型表现自然好。

但艺术字完全是另一回事。设计师在创作艺术字时,会把字母当成画布,在里面填充图案、渐变色、纹理,甚至把字母做成立体的、透明的、带阴影的。字母可能沿着圆弧排列,或者以竖排方式堆叠,或者每个字母都朝着不同的方向倾斜。更麻烦的是,这些复杂的视觉装饰本身就是一种"干扰",让AI很难判断眼前看到的究竟是字母的笔画,还是背景图案的一部分。

当前最顶尖的文字识别AI,在标准测试中能达到接近99%的准确率,但一旦换成艺术字测试,准确率会骤然下滑到70%多,甚至更低。就连最新最强的那种能看图说话的大型AI(也就是视觉语言模型),在艺术字识别上的表现也只有70%-80%左右,远远谈不上实用。

造成这种困境的根本原因有两个。第一是数据太少——目前专门针对艺术字的训练数据极其匮乏,最常被引用的艺术字数据集"WordArt"只有区区4805张训练图片,用这么点数据根本没法训练一个能应对现实世界各种艺术字风格的AI。第二是现有AI模型的设计本来就不是为艺术字准备的,它们把所有输入图片都强制缩放到同一个尺寸,比如32像素高、128像素宽,这对正常横排文字没什么问题,但碰到正方形的、竖长的、甚至圆弧形的艺术字,这种强制缩放会把字形扭曲得面目全非,识别当然就出了问题。

二、两条路造出200万张练习题:WATER-S数据集的诞生

既然数据稀缺是核心瓶颈,研究团队的第一步自然是想办法"造数据"。他们走了两条完全不同但互补的路,最终造出了共200万张带标注的艺术字图片,组成了名为WATER-S的合成数据集。

第一条路,可以理解为"工匠制作"路线。研究团队首先从各大开源字体网站和设计资源平台,收集了11250款艺术风格字体,这些字体涵盖了手写体、卡通体、装饰体、哥特体等各种风格,并且每一款都通过了版权审核,可以用于学术研究。然后,他们基于两个经典的文字合成工具(SynthText和SynthTIGER)开发了一个专门针对艺术字的渲染引擎,命名为SynthWordArt。

这个引擎的工作方式就像一个自动化的海报设计师:给它一段文字内容、一款字体、一张背景图,再告诉它用什么样的排版布局,它就能自动渲染出一张艺术字图片。与普通文字合成工具不同的是,SynthWordArt不仅支持普通的横排布局,还加入了曲线排列、多方向排列、透视变形等多种排版方式,并且大约有20%的图片是弧形文字,30%是多方向文字,其余的是普通水平布局但带有各种艺术字体风格。渲染所用的文字内容也不是从词典里随机挑单词,而是直接复用了从真实场景中收集来的文字标签,让文字内容的分布更贴近现实。通过这条路线,团队生成了100万张图片,组成子数据集WATER-T。

第二条路,则像是"请AI创作"路线。这条路的起点是一个核心问题:工具渲染出来的图片虽然标注准确、布局可控,但看起来总有点"机器味",缺乏真实设计作品里那种人的审美感和整体风格协调感。为了让数据更接近真实设计师的作品,研究团队决定借助当下最先进的AI图像生成技术来合成数据。

但AI生成图像的效果好不好,很大程度上取决于给它的"提示词"写得够不够好。如果只是简单描述"一张蓝色背景的艺术字图片",生成的结果肯定千篇一律、缺乏创意。为此,研究团队设计了一个巧妙的"提示词挖掘"流程。他们把现有的31335张真实艺术字图片一张张喂给腾讯的Qwen3-VL-8B(一款能看图说话的大型AI),让它为每张图片生成一段详细描述——不是描述图片里写的是什么字,而是描述这张图片的视觉风格、材质感、排版方式、背景氛围。描述中,具体的文字内容被替换成了一个占位符"",这样这段描述就能被重复用于生成写有不同内容的类似风格图片。接下来,团队又让这个AI以"学徒模仿大师"的方式,看三个已有的描述样本,然后自己写一段新的风格描述,通过大量迭代积累出273488个高质量的艺术字生成提示词。

有了这批提示词,团队把真实文字内容随机替换进占位符,然后交给一款开源的图像生成模型Z-Image-Turbo来生成图片,最终得到了另外100万张风格更多样、更贴近真实设计审美的艺术字图片,组成子数据集WATER-Z。

这两个子数据集各有优势,也各有短板,合在一起才是最完整的。WATER-T的优势是标注100%准确,文字内容和字体都完全可控;WATER-Z的优势是风格更丰富、视觉更自然,更接近真实设计场景的审美,但由于AI生成图片本身存在一定误差,大约有12.56%的图片里文字内容和标注不完全吻合。研究团队也专门做了实验,发现即使不过滤这些有噪声的样本,模型依然能从中学到有用的东西,强行用AI"打分过滤"反而可能把一些难度高但标注正确的样本也误删掉。两个子数据集合并后,就是完整的WATER-S,共200万张图片。

三、为AI搭一副"不变形"的眼镜:WATERec模型的设计

有了数据,还需要一个合适的模型来使用这些数据。研究团队在这方面的思考是:现有文字识别AI的结构,本质上是为规规矩矩的横排文字设计的,直接拿来处理艺术字会有两个根本性的问题。

第一个问题是输入变形。几乎所有现有的文字识别模型,都会把输入图片强制缩放到一个固定尺寸,比如32×128像素(高32、宽128)。对于普通的横排文字来说,这个比例很合理。但艺术字的形状千变万化,有的接近正方形,有的是竖长条,有的是宽扁形。把一张正方形的艺术字图片强制拉伸成32×128,字形会被严重变形,就好比把一张圆形的照片硬塞进一个长方形的相框,人脸会被拉成奇怪的形状,识别自然就出错了。虽然已经有改进版本的模型(比如SVTRv2)提出用几个预定义的尺寸模板来稍微缓解这个问题,但预定义模板终究是有限的,无法覆盖艺术字的所有形状。

第二个问题是解码方式。文字识别最后一步,是从图像特征里把文字内容"读"出来。常见的做法有两类:一类是并行解码,就是一次性预测所有字符;另一类是逐步解码,就是像人读书一样,一个字一个字地依次输出。艺术字常常有非常规的阅读顺序(比如竖排、螺旋形排列),对于这类文字,逐步解码的方式能更好地利用已经读出的字符来辅助预测下一个字符,准确率更高。

基于这两个判断,研究团队设计了WATERec这套新模型。它的核心思路用一句话概括就是:允许输入图片保持原始比例,同时用逐步解码的方式输出文字。

在输入处理上,WATERec不再强制把图片缩放到固定尺寸,而是在保持原始宽高比的前提下,把图片缩放到合适的大小,使得生成的视觉"词块"(把图片切成小块后得到的单元,每块4×4像素)的数量在64到256之间。不同形状的图片会产生不同数量的词块,高而窄的图片词块少,宽而扁的图片词块多,但比例关系得到了保留,字形不会被扭曲。

在感知空间位置上,WATERec使用了一种叫做"旋转位置编码"(RoPE)的技术。这个技术的作用是让AI理解"这个词块在图片里的什么位置"。与以前常用的位置编码方式不同,RoPE不需要提前固定图片的尺寸,它通过给每个词块的计算引入与坐标相关的旋转操作,自然地让模型理解相对位置关系。这就好比不是给每个座位贴固定编号,而是用"我在你左边三格、上面两格"这样的相对描述来定位,这样换了更大或更小的房间,关系描述依然有效。

在解码输出上,WATERec采用的是自回归(AR)解码器——一个字一个字地依次生成,每生成一个字都能参考前面已经生成的内容,就像一个人在读一段文字时,前面看到的字会帮助他理解后面不清晰的字。整个模型采用6层视觉编码器加2层解码器的轻量化设计,参数量约为2600万,在保持较快推理速度的同时实现了很高的准确率。

四、真实数据也要好好打扫:WATER-R训练集的整理

除了合成数据,研究团队还对现有的真实艺术字数据进行了系统整理,构建了名为WATER-R的真实数据训练集。这个训练集来源于三个现有数据集的合并:Union14M-L(一个大规模场景文字数据集)、WordArt数据集的训练部分,以及WAS-R数据集。

整理过程中最关键的一步是"去重"。研究团队对合并后的训练集和所有测试集之间做了严格的哈希去重,确保训练数据里不包含任何出现在测试集中的图片。这一步看起来理所当然,但在实际操作中很多研究往往忽略了这一点,导致测试结果虚高。经过严格去重后,WATER-R包含了3,225,130条文字实例,是一个数量可观的真实数据基础。

五、实验结果说话:提升了多少,在哪里提升

研究团队进行了全面的实验,用几个不同的测试集来评估各种方法的表现。艺术字测试主要用的是WordArt数据集的测试部分,共1511张图片,简称A-Bench。此外还用了六个常规场景文字测试集(统称C-Bench),以及Union14M的七个细分场景测试集(统称U-Bench),其中包括曲线文字、多方向文字、艺术文字、无上下文文字、显著性文字、多词组文字和通用场景。

在只用WATER-R真实数据训练时,WATERec在A-Bench上的准确率就已经达到了88.55%,超过了同类CTC解码模型SVTRv2(86.56%)和另一款自回归模型SVTRv2-AR(87.36%)。在U-Bench的平均分上,WATERec也以88.14%领先SVTRv2的86.14%和SVTRv2-AR的87.63%。

加入合成数据之后,提升更为明显。单独加入100万张WATER-T,A-Bench准确率从88.55%提升到89.81%;单独加入100万张WATER-Z,提升到89.41%。两者组合成100万张混合数据(各50万),准确率达到89.94%,已经优于单独使用100万张任一数据集,说明两个子数据集确实具有互补性。当加入200万张WATER-S时,准确率进一步攀升到90.40%,这是研究团队所知的第一个在WordArt-Bench上超过90%的结果。

研究团队还测试了继续增加到300万张合成数据的效果,发现提升变得非常有限,甚至某些子测试集出现了轻微下滑。这告诉我们,合成数据并非越多越好——当合成数据量大约是真实数据量的三分之二时(200万合成对应320万真实),效果最佳;超过这个比例,合成数据和真实数据之间的分布差距会开始对模型产生轻微的负面影响。

研究团队还把WATER-S加到其他三个不同架构的模型上测试泛化性,分别是CTC解码模型SVTRv2、并行解码模型ABINet,以及自回归模型SVTRv2-AR。结果显示,加入WATER-S之后,这三个模型在A-Bench上的准确率分别提升了+2.12%、+2.39%、+2.78%,说明这套合成数据对各种模型架构都有普遍性的帮助,而非只适配某一种特定模型。

研究团队也在同一组测试集上评估了当前主流的视觉语言大模型的表现。通用视觉语言模型(Qwen3-VL-8B、InternVL3.5-8B、Nemotron-VL-8B)在A-Bench上的最高准确率只有72.01%。专门针对OCR任务优化的模型或工具(GOT-OCR 2.0、PaddleOCR-VL、HunyuanOCR、DeepSeek-OCR、DeepSeek-OCR2、PP-OCRv5)表现好一些,最高的HunyuanOCR达到了81.54%,但依然远低于WATERec的90.40%。

研究团队还尝试了用LoRA微调的方式,将Qwen3-VL-8B在WATER-R数据上进行专项训练,准确率从72.01%提升到82.59%;再加上WATER-S数据,进一步提升到84.78%。这说明WATER-S数据对大型语言模型的微调同样有帮助,但即使经过专项微调,拥有80亿参数的大模型仍然输给了只有2600万参数的轻量级专业模型WATERec。专业的事情,专业的工具做,这个结论在这里得到了很好的印证。

六、拆开模型看看:每个设计选择贡献了多少

为了更清楚地理解WATERec里每个设计决策的价值,研究团队还进行了详细的消融实验——也就是把模型的各个部分逐一拆除或替换,看看性能如何变化。

在位置编码的选择上,研究团队比较了四种方案:不用任何位置编码(NoPE)、可学习的绝对位置编码(APE)、固定的正弦余弦位置编码(SPE),以及旋转位置编码(RoPE)。实验结果显示,在任意形状输入模式下,完全不用位置编码会导致模型性能大幅崩溃(A-Bench准确率降至49.57%),说明位置信息对模型理解文字布局至关重要。APE和SPE的效果差不多,A-Bench准确率分别是87.69%和87.29%。RoPE的表现最好,达到88.55%,而且由于它天然支持可变长度的序列,在各种形状的输入图片上都表现稳定。

在词块数量范围的设置上,研究团队比较了固定256个词块(相当于固定尺寸输入)、允许1到256个词块的完全自由范围,以及64到256个词块的适中范围。完全固定尺寸(不启用任意形状模式)的A-Bench准确率是86.83%;启用任意形状但词块下限设为1时(意味着非常小的图片只会被切成极少的词块),某些小图片的识别效果变差,A-Bench为88.29%;把下限设为64(相当于最小输入图片为32×32像素)时效果最佳,达到88.55%。研究团队还测试了把上限扩展到512个词块的版本,A-Bench进一步提升到88.82%,但推理速度会从361帧/秒降至191帧/秒,考虑到效率平衡,最终选择了64到256的范围作为默认配置。

研究团队还通过可视化编码器生成的特征图来直观展示效果差异。对于一张竖长的艺术字图片,使用固定尺寸模式的模型会先把图片横向拉伸,特征图显示文字的纹理和形状被严重扭曲,模型很难从中提取有效特征。而使用任意形状模式的WATERec保持了图片的原始比例,特征图清晰地呈现出文字的结构,模型能够准确抓取每个字符的轮廓。

七、这套方法能用于其他语言吗:多语言支持的初步验证

研究团队还专门验证了整套合成数据生成流程是否能迁移到英语以外的语言。理论上,无论是工具渲染路线还是AI生成路线,替换掉底层的文字内容来源(即换一份对应语言的文字语料库),就能生成其他语言的艺术字数据。

为此,他们生成了中文、法文、俄文、德文、日文、阿拉伯文等多个语言版本的艺术字样例,并专门针对中文进行了小规模的系统性验证。研究团队从BCTR-Test测试集中抽取了101张中文艺术字图片作为测试集,用真实中文场景文字数据(BCTR-Train)训练WATERec后准确率为87.13%,加入中文版本的WATER-S数据后准确率提升到92.08%,而通用大模型Qwen3-VL-8B在同一测试集上只有82.77%。这组数据说明,这套方法的设计思路并非英语专属,而是可以相对直接地迁移到其他语言的艺术字识别任务。

说到底,这项研究做了一件很实在的事:把"AI读不懂艺术字"这个一直被忽视的小角落,系统性地扫了一遍。数据不够就造数据,而且造了两种不同风格的数据互补着用;模型设计有缺陷就重新设计,允许图片保持原始形状进入模型,不再强行把各种奇形怪状的艺术字统一压扁。这种"两手都要硬"的做法,让A-Bench准确率突破了90%,打败了体量大得多的通用AI大模型。

对于普通人来说,这项研究的意义在于,未来当你用手机扫描一张设计感十足的海报、名片或者商品包装时,识别那些花式艺术字的准确率会更高;对于设计师和商家来说,自动识别艺术字意味着更多数字化和搜索功能成为可能;而对于研究者来说,这套数据生成流程是开放的,无论是想研究更多语言的艺术字,还是想用更强的生成模型来替换其中的图像合成环节,都可以在这套框架上继续扩展。

当然,从研究团队展示的失败案例来看,艺术字识别还没有到"完全解决"的程度。模型有时会把手写体里的"l"认成"1",把"O"认成"0",把字母边缘的装饰误读成额外的字符。这些错误,很多时候连人眼也需要仔细辨认才能判断。所以这个问题还远没有终点,但至少有了一个很好的新起点。

有兴趣继续深入了解的读者,可以通过编号arXiv:2606.24484v1查找完整原文,研究团队也已将代码和数据集开放在GitHub上,相关搜索不难找到。

Q&A

Q1:WATER-S合成数据集是怎么生成的,为什么要用两种不同的方法?

A:WATER-S由两个子数据集组成。WATER-T通过工具渲染生成,使用11250款艺术字体,字符内容和位置完全可控,标注100%准确。WATER-Z通过AI图像生成模型生成,先用Qwen3-VL-8B从真实艺术字图片中提取风格描述,再由Z-Image生成图片,风格更多样自然但存在约12.56%的标注误差。两者风格互补,合并使用效果优于任何单一来源。

Q2:WATERec模型和普通文字识别模型相比,主要区别在哪里?

A:WATERec最大的不同是支持任意宽高比的图片输入,不会强制把图片缩放到固定尺寸,避免了艺术字字形被拉伸变形的问题。此外,它使用旋转位置编码(RoPE)来感知不同形状图片中词块的空间位置,以及逐字符自回归解码器来处理复杂阅读顺序的文字,这两点共同提升了对艺术字的识别能力。

Q3:WATERec和GPT这类大型AI相比,谁的艺术字识别能力更强?

A:专门训练的WATERec更强。在WordArt-Bench测试集上,WATERec结合真实数据和200万合成数据后达到90.40%准确率;而通用视觉语言大模型如Qwen3-VL-8B仅有72.01%,专为OCR优化的HunyuanOCR最高也只有81.54%。即使将Qwen3-VL-8B在同样的数据上进行专项微调,也只能到84.78%,仍低于参数量少300多倍的WATERec。