打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

比如“人工智能正在重塑全球的信息基础设施”这句话:GPT-4切出19个token(几乎每个字拆成1-2个),而Qwen只切6个(“人工智能”算一个token)。为啥?因为tokenizer的词表设计不同。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

今天的tokenizer优化,就像林语堂的尝试:为了效率合并汉字,却意外关闭了Unicode编码带来的语义通道。历史不是直线进化,而是在约束中变形,有些能力是设计出来的,有些只是碰巧没被删掉。