Token / Tokenization

分词

模型处理文本的最小单元。1 个 token ≈ 0.75 个英文单词,或 1–2 个汉字。

详解

Token 是大模型读和写文本的最小单位。模型并不直接看到字符,而是看到由 tokenizer(分词器)切分出来的 token 序列。不同模型的 tokenizer 不同——GPT 用 BPE,Claude 也有自己的分词方案,这意味着同一段话在不同模型里的 token 数会不一样。Token 直接关联两件你最关心的事:成本(API 按输入 + 输出 token 计费)和上下文限制(每个模型有最大 token 数)。中文通常比英文消耗更多 token——一个汉字常常是 1–2 个 token,而一个英文单词平均不到 1 个 token。

一个类比
想象快递公司按"件"计费,而不是按你包裹里装的是什么。模型也一样:它不关心你写的是诗还是 SQL,只数 token 数。
举个例子
句子 "Hello, world!" 会被切成 ["Hello", ",", " world", "!"] 共 4 个 token。同样的中文 "你好,世界!" 大约是 6–8 个 token。
PYTHON 示例
相关概念