Tokens

现代大型语言模型 (LLM) 通常基于 Transformer 架构，该架构处理称为 token 的单元序列。Token 是模型用于分解输入和生成输出的基本元素。在本节中，我们将讨论什么是 token 以及语言模型如何使用它们。

什么是 Token？

Token 是语言模型读取、处理和生成的基本单元。这些单元可能因模型提供商的定义而异，但通常，它们可以表示

一个完整的单词（例如，“apple”），
一个单词的一部分（例如，“app”），
或其他语言成分，例如标点符号或空格。

模型 token 化输入的方式取决于其 token 化算法，该算法将输入转换为 token。同样，模型的输出以 token 流的形式出现，然后将其解码回人类可读的文本。

Token 在语言模型中如何工作

语言模型使用 token 的原因与它们如何理解和预测语言有关。语言模型不是直接处理字符或整个句子，而是专注于 token，token 代表有意义的语言单元。以下是流程的工作原理

输入 Token 化：当您向模型提供提示时（例如，“LangChain 很酷！”），token 化算法会将文本拆分为 token。例如，该句子可以 token 化为类似 ["Lang", "Chain", " is", " cool", "!"] 的部分。请注意，token 边界并不总是与单词边界对齐。
处理：这些模型背后的 Transformer 架构按顺序处理 token，以预测句子中的下一个 token。它通过分析 token 之间的关系，从输入中捕获上下文和含义来实现这一点。
输出生成：模型逐个生成新的 token。然后将这些输出 token 解码回人类可读的文本。

使用 token 而不是原始字符允许模型专注于语言上有意义的单元，这有助于它更有效地捕获语法、结构和上下文。

Token 不一定是文本

尽管 token 最常用于表示文本，但它们不必仅限于文本数据。Token 也可以用作 多模态数据 的抽象表示，例如

图像,
音频,
视频,
和其他类型的数据。

在撰写本文时，几乎没有模型支持 多模态输出，只有少数模型可以处理 多模态输入（例如，文本与图像或音频的组合）。但是，随着 AI 技术的不断进步，我们预计 多模态 将变得更加普遍。这将使模型能够处理和生成更广泛的媒体，从而显着扩展 token 可以表示的内容以及模型如何与各种类型的数据交互的范围。

注意

原则上，任何可以表示为 token 序列的事物 都可以用类似的方式建模。例如，DNA 序列（由一系列核苷酸 (A, T, C, G) 组成）可以被 token 化和建模，以捕获模式、进行预测或生成序列。这种灵活性使基于 Transformer 的模型能够处理各种类型的顺序数据，进一步扩展了它们在生物信息学、信号处理和其他涉及结构化或非结构化序列的各个领域的潜在应用。

有关多模态输入和输出的更多信息，请参阅多模态部分。

为什么不使用字符？

使用 token 而不是单个字符使模型更高效，并且更擅长理解上下文和语法。Token 代表有意义的单元，例如完整的单词或单词的一部分，使模型能够比处理原始字符更有效地捕获语言结构。Token 级别的处理还减少了模型必须处理的单元数量，从而加快了计算速度。

相比之下，字符级别的处理将需要处理更大的输入序列，使模型更难学习关系和上下文。Token 使模型能够专注于语言意义，从而使其在生成响应时更准确和高效。

Token 如何对应文本

有关 token 如何计数以及它们如何对应文本的更多详细信息，请参阅 OpenAI 的这篇文章。

根据 OpenAI 的文章，英语文本的近似 token 计数如下

1 个 token ~= 4 个英文字符
1 个 token ~= ¾ 个单词
100 个 token ~= 75 个单词

什么是 Token？​

Token 在语言模型中如何工作​

Token 不一定是文本​

为什么不使用字符？​

Token 如何对应文本​

此页是否对您有帮助？

什么是 Token？

Token 在语言模型中如何工作

Token 不一定是文本

为什么不使用字符？

Token 如何对应文本