据scmp报道,人工智能领域爆发了一场罕见的技术遭遇战,焦点直指中国当红AI独角兽DeepSeek的核心技术。
来自日本东北大学与中国科学院的联合研究团队,今日发布了一份名为《视觉优势还是语言拐杖?深入研究DeepSeek-OCR》的重磅报告,直接质疑了DeepSeek数月前引发轰动的“视觉文本压缩”技术。
这项曾被誉为能让AI“一目十行”甚至“过目不忘”的革命性创新,在科学家的显微镜下显露出了尴尬的一面:它可能并不是真的“看懂”了文件,而是凭借强大的语言直觉在“猜”内容。
这场学术界的正面交锋,不仅给DeepSeek的高速发展踩了一脚刹车,也让整个科技界开始重新审视多模态大模型的真实能力边界。
“降维打击”背后的技术隐忧
要理解这场争议的严重性,我们需要先回顾一下DeepSeek到底做出了什么惊艳的承诺。
在几个月前,DeepSeek推出了一项名为DeepSeek-OCR的技术,宣称找到了一条处理超长文本的捷径,即“视觉感知压缩”。
传统的AI阅读长篇小说或法律文档时,是将文字逐个转化成Token(计算机能理解的词元),这不仅昂贵而且计算量巨大。
DeepSeek-OCR技术利用视觉感知作为压缩媒介,能够处理大型复杂文档。图片:路透社
DeepSeek的工程师们另辟蹊径,他们让AI把文本直接当成图片来看,利用视觉信息的高密度特性,将原本冗长的文字压缩成极其精简的视觉信号。
根据当时的数据,这种方法能将长文本的信息处理效率提升10到20倍,甚至有媒体惊呼这是通向“无限上下文”的圣杯。
然而,中科院与东北大学的最新研究却给这盆热火浇了一盆冷水。
研究人员发现,当DeepSeek的模型面对一份由于扫描质量不佳或字体模糊的文档时,它依然能流畅地输出内容,但这恰恰是问题所在。
在严格的受控实验中,研究者故意遮挡了文档中的关键视觉信息,或者输入了一些视觉上极难辨认的乱码图片,DeepSeek的模型竟然依然能“读”出通顺的句子。
这揭示了一个令人不安的真相:模型在很大程度上并非依赖“眼睛”去识别图片中的字形,而是依赖大脑中预存的“语言先验知识”在进行填空游戏。
换句话说,就像一个偷懒的学生,虽然看不清黑板上的字,但凭借对课文的背诵和上下文的理解,硬是把笔记抄全了。
这种“脑补”能力在处理常规文章时或许能蒙混过关,甚至显得表现优异,但在处理财务报表、医疗档案或法律合同等容错率为零的场景时,就埋下了巨大的雷。
一旦文档中出现了不符合常规逻辑的真实数据,过度依赖“语言直觉”的模型极有可能无视眼前的视觉证据,强行输出它认为“合理”但实际错误的各种信息。
被误导的性能指标与行业反思
这份研究报告最尖锐的指控在于,它指出DeepSeek此前公布的性能指标具有“误导性”。
在标准测试集中,由于文本内容大多符合人类语言的通用规律,模型的“猜词”命中率极高,从而掩盖了其视觉识别能力的短板。
研究团队创造性地引入了“语义干扰”测试,即在文档图片中故意插入一些语义不通顺但视觉清晰的文字。
结果显示,DeepSeek-OCR的性能瞬间大幅跳水,它往往会忽略那些真实的“乱语”,而试图将其纠正为通顺的“人话”。
这种现象在心理学上被称为“空想性错视”,如今却生动地发生在最前沿的人工智能身上。
对于急于将AI落地到金融审核、自动驾驶等高风险领域的企业来说,这无异于一记警钟。
如果AI只是在“假装”看见,那么它所构建的安全大厦可能建立在沙滩之上。
这篇论文的发表在各大技术社区引发了激烈的讨论,许多开发者开始复盘自己在使用DeepSeek接口时遇到的“幻觉”问题。
一位不愿透露姓名的硅谷工程师在社交媒体上表示,这解释了为什么他们的文档分析工具偶尔会“创造”出原文件中不存在的日期和金额。
这种对“先验知识”的过度依赖,本质上是目前所有大语言模型面临的通病,即模型太聪明了,聪明到学会了如何走捷径来通过考试。
DeepSeek此次遭遇的质疑,实际上是整个AI行业从“暴力美学”向“精细化认知”转型过程中必须经历的阵痛。
依靠堆算力、堆数据带来的能力提升,终究会撞上逻辑与物理现实的墙壁。
真正的多模态智能,不应仅仅是视觉与语言模块的简单拼接,而应建立在对物理世界真实感知的因果链条之上。
打破黑盒:迈向可信赖的AI
尽管面临严厉的学术指控,但我们不应全盘否定DeepSeek在探索新型架构上的勇气。
将文本视觉化压缩依然是一个极具潜力的研究方向,它试图打破语言模型对文本序列长度的物理限制。
此次中日研究团队的发现,更像是一次必要的“纠偏”,它迫使研究人员从单纯追求压缩比和跑分,转向关注模型内部的运作机理。
这也给中国乃至全球的AI初创公司提了一个醒:在激烈的军备竞赛中,发布的每一项“黑科技”都将被置于全球同行的显微镜下。
科学的进步往往不是直线向上的,而是在不断的提出假设、验证假设和推翻假设中螺旋上升。
东北大学与中科院的这项研究,为我们提供了一套全新的检测工具,即如何区分AI是在“看”还是在“猜”。
这对于未来构建更加鲁棒、可信的AI系统至关重要。
我们期待DeepSeek团队能正面回应这一技术挑战,通过改进算法架构,平衡视觉感知与语言推理的权重。
也许下一代的DeepSeek-OCR,能够真正学会像人类一样,既能利用经验快速阅读,又能在关键细节上“眼见为实”。
这场关于“视觉优势”与“语言拐杖”的辩论,注定将成为2026年AI发展史上一个重要的注脚。
它提醒我们,在通往通用人工智能的道路上,诚实地面对技术的局限性,比盲目地欢呼每一个高分榜单都要重要得多。
毕竟,我们需要的是一个真正能帮人类解决问题的助手,而不是一个擅长脑补的“差不多先生”。
随着更多第三方独立研究的介入,人工智能技术祛魅的过程正在加速,这对于整个行业的健康发展而言,无疑是一件幸事。
热门跟贴