Token / Tokenization

分词

模型处理文本的最小单元。1 个 token ≈ 0.75 个英文单词，或 1–2 个汉字。

详解

Token 是大模型读和写文本的最小单位。模型并不直接看到字符，而是看到由 tokenizer（分词器）切分出来的 token 序列。不同模型的 tokenizer 不同——GPT 用 BPE，Claude 也有自己的分词方案，这意味着同一段话在不同模型里的 token 数会不一样。Token 直接关联两件你最关心的事：成本（API 按输入 + 输出 token 计费）和上下文限制（每个模型有最大 token 数）。中文通常比英文消耗更多 token——一个汉字常常是 1–2 个 token，而一个英文单词平均不到 1 个 token。

一个类比

想象快递公司按"件"计费，而不是按你包裹里装的是什么。模型也一样：它不关心你写的是诗还是 SQL，只数 token 数。

举个例子

句子 "Hello, world!" 会被切成 ["Hello", ",", " world", "!"] 共 4 个 token。同样的中文 "你好，世界！" 大约是 6–8 个 token。

PYTHON 示例