肖仰华：词元之上，AI能否真正理解人类语言？|人工智能|刘歆|张爱玲|文学|肖仰华

当AI在信息检索、归纳整理、分析解读、风格模仿等方面越来越展现“超能力”，当自然语言中的词语与计算机语言中的词元构建了越来越顺畅的人机协作，我们将如何定义“作者”，如何评价“作品”，如何守住能抵御孤独、延展生命、探寻自我的文学？

对谈现场摄影：刘歆徐程

5月1日，是中国报纸历史上最悠久的副刊新民晚报《夜光杯》创刊80周年的日子，以此为契机，我们与广大读者和作者相聚在夜光杯市民读书会，共同开启夜光杯文化活动周。今天，夜光杯市民读书会以全日三场活动拉开系列活动的帷幕。今天上午，在位于上海中心的朵云书院旗舰店的首场活动中，创作者与技术者展开了一场巅峰对话，从词语到词元，在文学与科技的碰撞中，探讨“AI时代的文字与文学”。

肖仰华摄影：刘歆徐程

“来杯咖啡不加糖”这句话承载的信息远不止字面意义——连续加班的疲惫、片刻喘息的渴望、健康控糖的坚持，这些无形的体验都凝结在这简单的七个字里，人工智能大模型能准确识别意图，却无法真正感知背后的“生命重量”。复旦大学计算与智能创新学院教授、上海市数据科学重点实验室主任肖仰华，指出了AI与人类语言之间的深刻差异：机器能够处理符号，却难以触及意义。

人类通过语言构建意义，通过意义形成理解，通过理解抵达世界。然而，对于人工智能而言，语言的边界却可能是它的“牢笼”。肖仰华解释，AI处理一段文字，实际上是在操作一系列数学符号——“词元”（Token），这是大模型处理信息的最小单元，从本质上看，它只是高维向量空间中的一个位置，它使得语言进入了一个完全可计算的空间，语义不再直接呈现，而是通过向量之间的距离与分布间接体现。“也正因此，这种转化极大提升了计算效率与表达能力，却也同时拉开了机器处理与人类理解之间的结构性差异。”他说。

随着知识图谱技术以及大语言模型技术的出现，AI 模型正逐渐搭建起“词元”的符号世界与“词语”的意义世界之间的桥梁，走出了从“模仿人类语言的表象”到“解构语言生成的底层逻辑”的关键一步。但肖仰华指出，这种“理解”与人类的理解方式仍有本质不同，“AI所能够捕捉的是表达在语料中的共现模式与统计关联。它可以识别结构，却无法承载体验；可以逼近意义，却无法生成意义。这一差异，正是当前人工智能语言能力的根本边界。”

活动现场摄影：刘歆徐程

当生成式大语言模型出现，人工智能语言理解的一次质的飞跃来临，让研究者们看到了通向真正语言理解的曙光。肖仰华解释，与知识图谱不同，大语言模型通过学习海量文本，自动“蒸馏”出语言中的知识和规律，预测下一个最可能出现的词元，以此模拟“理解”过程。这意味着，大模型的“知识”并非预先植入，而是从训练数据中隐性习得，展现出了一种“涌现”能力：当模型规模超过某个临界点时，它会突然获得推理链、多语言理解，甚至初步的逻辑思考等意想不到的能力。

而智能体已能初步模拟文学创作全流程。肖仰华举例说，大模型将“张爱玲”解析为“海派作家”“苍凉美学”等标签，知识图谱检索生平与作品数据，智能体调用“文风模仿”“意象生成”技能，产出充满“旗袍”“电车”“阴雨”的流畅文本。但这种“创作”的本质，是符号的精准排列与概率拟合，而非生命体验的真实震颤。“它无法理解苍凉是张爱玲在乱世中亲历家族败落、爱情幻灭后，深入骨髓的存在性孤独；无法将这种体验转化为文字中那种既华美又绝望的‘痛感’与‘温度’。就像石膏像：形态毕现，却无呼吸。”

若以人类智能框架审视，肖仰华觉得，AI的智能呈现出一种深刻的“三角失衡”：对符号系统与规则系统的极致掌控使得“知性”（逻辑与事实）可以超越任何个体人类；“感性”（共情、想象力与生命温度）只是模仿；更重要的是“理性”（哲学追问与价值求索）缺失，因为哲学思考的核心动力并非逻辑推演，而是源于存在本身的“不安”与“困惑”——对死亡、对意义、对道德根基的终极追问。“‘感性’与‘理性’同时根植于‘体验’，却在AI体系中共同缺席，导致其在文学创作中呈现出‘知性过强而其余维度薄弱’的结构性特征。这种结构直接决定了AI的创作边界。”

但是否有一天AI能真正理解文字？“AI发展并不会自动导向某种确定的结果，其方向取决于人类如何使用与理解这一技术，”肖仰华指出，“在AI的‘词元’世界里，人类必须牢牢守护那片由体验孕育、由意义照亮、由主体性定义的‘词语’世界。至于，是否终会有‘那样一天，这个问题的答案，关乎人工智能的未来走向，也关乎人类对自身认知本质的深层理解。”

原标题：《肖仰华：词元之上，AI能否真正理解人类语言？》

栏目编辑：马亚宁

来源：作者：新民晚报易蓉