中文提问，AI用韩语回答：一个编码助手的诡异bug

码上闲叙

2026-05-16 03:15 ·北京

周三下午，开发者用中文向编码助手提问，收到的却是韩语回复。这不是语言设置错误，而是一个值得深究的技术现象。

这类跨语言"跑偏"通常源于训练数据的混杂。当模型在韩中双语语料上微调时，语言边界可能模糊——中文输入触发了韩语的输出概率峰值。

更隐蔽的是tokenization层的干扰。多语言模型共享同一套子词切分表，某些中文token的向量表示与韩语高度重叠，导致解码阶段"串台"。

开发者排查时发现，该助手基于某开源模型二次开发，训练时混用了Stack Overflow韩文区和中文技术文档，未做语言隔离。

临时解法：在prompt里强制指定"请用中文回答"。根治方案需在微调阶段引入语言标识符（language ID），让模型显式区分输出目标语。

这个案例暴露了一个行业通病：多语言能力的"表面可用"不等于"边界清晰"。用户以为选了中文模式，底层其实是个概率轮盘赌。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴