AI大模型的“中文税”：中文比英文更费，Token，为什么？

风雨与阳光

2026-05-10 11:24 ·四川

比如“人工智能正在重塑全球的信息基础设施”这句话：GPT-4切出19个token（几乎每个字拆成1-2个），而Qwen只切6个（“人工智能”算一个token）。为啥？因为tokenizer的词表设计不同。

今天的tokenizer优化，就像林语堂的尝试：为了效率合并汉字，却意外关闭了Unicode编码带来的语义通道。历史不是直线进化，而是在约束中变形，有些能力是设计出来的，有些只是碰巧没被删掉。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴