Token是人工智能大模型理解和生成语言的最小语义单元。在具体换算上,不同语言的Token数量有所差异。通常,一个汉字约等于1到2个Token,而一个英文单词约等于1个Token,标点符号也单独计算。例如,中文句子“今天天气很好。”大约会被拆分为7个Token,而同样的英文句子则会生成约6个Token。因此,表达相同的意思,中文消耗的Token往往比英文多30%至50%。Token在大模型应用中扮演着三个至关重要的角色:第一,它是AI的“计价器”和“电费”,绝大多数商业大模型都按照Token数量收费;第二,它决定了AI的“记忆力”。每个大模型都有一次性能处理的Token上限,超出这个范围的对话内容,AI就会“忘记”;第三,它是驱动AI执行任务的“能源”。模型每进行一步思考和推理,都需要消耗Token。任务越复杂,消耗就越大。(红星新闻)

JPG
长图