打开网易新闻 查看精彩图片

去年有个数据挺扎眼的:主流开源OCR引擎(光学字符识别)在阿拉伯语上的准确率,平均只有62%。拉丁语系早就过了95%的及格线,阿拉伯语却还在及格线底下扑腾。一位叫Adawati的开发者花了三周,把自家产品的准确率干到了94%——不是靠砸算力,是靠重新理解这门语言的结构。

连笔、变位、小点点:阿拉伯语的三重诅咒

连笔、变位、小点点:阿拉伯语的三重诅咒

阿拉伯语OCR难,不是难在"识别",是难在"理解"。

同一个字母,在词首、词中、词尾是三种完全不同的写法。比如"ب"(ba),开头是独立形态,中间要连笔变形,结尾又得换一套笔画。拉丁字母像积木,拆开再拼就行;阿拉伯字母像流体,位置和邻居决定了它长什么样。

更麻烦的是那些小点点。阿拉伯语靠点(نقطة)和符号(تشكيل)区分词义,一个点的位置偏移,"كتب"(kataba,写)能变成"كُتُب"(kutub,书)。学生拍教材时手一抖,这些细节就糊成一片。

Adawati在博客里列了三个真实场景:教室灯光偏黄导致色偏、手机俯拍产生梯形畸变、扫描件自带"椒盐噪声"。这些不是边缘case,是每天发生的常态。

预处理:把脏数据洗干净再喂给AI

预处理:把脏数据洗干净再喂给AI

他的解法分两步:先让图像"可读",再让模型"可懂"。

打开网易新闻 查看精彩图片

第一步叫二值化(Binarization)。把彩色照片压成高对比度的黑白图,背景噪点直接抹掉。这一步干掉的是"视觉干扰"——教材上的水印、阴影、折痕,在纯黑白色调里失去藏身之处。

第二步是纠偏(Deskewing)。自动检测文本行的倾斜角度,把拍歪的照片掰正。Adawati没透露具体算法,但这类任务通常用霍夫变换(Hough Transform)找直线,再算旋转矩阵。他说"自动校正",意味着用户不用手动调角度。

第三步去噪(Noise Reduction)。针对扫描PDF常见的"椒盐噪声"——那些随机出现的黑白像素点——用中值滤波或形态学操作清理。处理完的图像,边缘清晰得像是从正上方扫描的原稿。

这三步做完,输入质量从"能用"跳到了"好用"。模型看到的不再是用户随手拍的原始照片,而是标准化的、干净的视觉信号。

模型层:CNN抓形状,LSTM抓顺序

模型层:CNN抓形状,LSTM抓顺序

预处理解决的是"看清楚",模型解决的是"读明白"。

Adawati用的是CNN(卷积神经网络)+ LSTM(长短期记忆网络)的混合架构。CNN负责从图像里抠特征:笔画走向、曲线弧度、点的分布位置。这些视觉特征被压缩成向量,喂给LSTM。

LSTM的关键作用是处理序列依赖。阿拉伯语的连笔特性,意味着字母不是孤立存在的——前一个字母的尾巴,就是后一个字母的开头。LSTM的"记忆"能力,让它能把一串视觉特征理解成连贯的词汇,而不是割裂的符号。

打开网易新闻 查看精彩图片

他没说具体用了哪个基座模型,但强调了"针对阿拉伯语脚本微调"(fine-tuned)。这意味着预训练权重来自通用OCR,但最后的几层是在阿拉伯语文本上重新训练的。开源社区有类似的方案,比如Kraken或Tesseract的阿拉伯语扩展,但Adawati的准确率数字(94%)明显高于Tesseract的基线表现。

零留存架构:一个反共识的产品决策

零留存架构:一个反共识的产品决策

技术之外,有个细节更值得关注。

Adawati在架构层面做了"零留存"(Zero Retention)设计:图片进内存缓冲区处理,文本提取完立即删除,不建数据库,不记日志。用户不用注册,不用交邮箱,打开网页直接用。

这个决策和主流产品逻辑是反着来的。大多数免费工具靠数据换服务——你上传的文档变成训练素材,或者至少变成用户画像的拼图。Adawati的选择是牺牲潜在的模型迭代数据,换取即时信任。

他的目标用户很明确:需要转录课堂笔记的学生、面对不可搜索PDF档案的研究者。这两类人对隐私的敏感度,远高于普通办公场景。一个不用登录的工具,降低了"试试"的心理门槛。

产品目前免费。Adawati没提商业化路径,但在博客结尾留了反馈入口,特别提到"复杂字体"和"手写笔记"——这两个场景恰是OCR的深水区,也是训练数据最难获取的领域。

如果你测过阿拉伯语OCR工具,手写体的识别率现在能到多少?