人工智能已成为我们生活中不可分割的一部分,悄然革新了我们与技术互动的方式。但你是否曾想过,AI系统如何理解它们所遇到的海量信息呢?事实证明,AI有着自己的秘密语言,由称为“令牌”的微小构建块组成。在本文中,我们将揭开AI令牌的神秘面纱,阐述它们在赋予人工智能卓越能力方面的重要角色。

AI的乐高积木 将令牌视为AI世界中的乐高积木。它们是AI系统用来表示不同元素(如单词、图像或声音)的小而离散的信息单元。通过将复杂的数据分解成这些可管理的块,AI算法能够处理各种信息的巨大任务。

无论你提供什么类型的信息,AI系统始终只会看到一堆数字,也称为向量。让我们以一个简单的例子来说明文本与其相应的令牌和数值向量之间的映射关系。当与ChatGPT聊天时,你可能会写下“摩尔多瓦的首都是什么?”。首先,你的句子被分解成小片段,有时是一个词,有时只是一个字符:

  1. What
  2. is
  3. the
  4. capital
  5. of
  6. Mold
  7. ova
  8. ?

每个令牌都被转换为一个数值表示,可能看起来像这样:

每个字都是数字化了。
每个字都是数字化了
  1. What: 2061
  2. is: 318
  3. the: 262
  4. capital: 3139
  5. etc…

相同的数字根据AI和信息类型的不同具有不同的含义。总的来说,有四种不同类型的令牌。这种数值表示在AI系统进行进一步计算以给出答案时使用,但这发生在令牌化阶段之后,超出了本文的范围。

解码书写文字 – 文本令牌

这些令牌代表书面或口语语言中的单词、短语或字符。令牌化的过程涉及将文本切割成词边界、句子和通过令牌规范化来保持一致性。文本令牌赋予了AI模型理解语言、解析情感、翻译语言和执行一系列语言技能的能力。通常,文本令牌倾向于代表短小常见的单词。较长或不常见的单词往往会被分解为较小的令牌。

透过AI的数字眼睛 – 视觉令牌

就像我们依赖眼睛来看到和解释周围世界一样,AI系统依赖视觉令牌来理解图像。视觉令牌是通过像图像分割、目标检测和特征提取这样的巧妙技术生成的。通过将图像分解为这些有意义的视觉元素,AI模型获得了识别对象、跟踪其运动甚至理解整个场景背景的能力。从图像识别到自动驾驶汽车,视觉令牌在将像素转化为有意义的洞察力方面发挥着至关重要的作用。

声音的语言 – 音频令牌 那么声音呢?这就是声音令牌发挥作用的地方。这些令牌代表AI系统遇到的声音、语音或音频信号。将音频数据转换为令牌涉及创建称为频谱图的可视化表示、解析音素(独特的语音音素)和训练声学模型。有了音频令牌,AI系统就能够执行诸如语音识别、语音合成、音乐分析和音频分类等任务。它们是我们“心爱”的语音助手、转录服务和音频体验的支撑。

信息的交响乐 – 多模态令牌

真正的魔力发生在AI系统通过多模态令牌将多种形式结合在一起时。多模态AI系统能够无缝集成文本、图像和音频,而这些令牌使其对复杂信息有全面的理解能力。想象一下:一个AI系统同时分析视频和其音轨,通过结合视觉和声音方面的信息获得更多上下文。在多媒体内容分析的世界中,多模态令牌解锁了文本、视觉和音频之间的关系。它们是自动图像字幕、视频摘要和沉浸式虚拟体验的催化剂。

为什么我要关心?

随着人工智能(AI)不断塑造我们的世界,理解令牌的概念变得越来越重要。令牌不仅在AI系统处理和理解信息的方式中发挥着至关重要的作用,还对直接影响用户体验和运营成本具有实际意义。让我们探讨为什么你应该关注令牌及其在这一领域中的重要性。

信息限制:上下文窗口 令牌的一个关键方面是它们与上下文窗口的关联,上下文窗口指的是AI系统一次可以有效处理的最大令牌数量。想象一下上下文窗口是AI系统观察和理解文本的一个框架。举个例子,你与ChatGPT的整个对话应该适应上下文窗口。不同的模型具有不同的上下文窗口大小,通常从几千个令牌到数十万个令牌不等。

为了更好地理解,我们来考虑几个例子。一个上下文窗口大小为4,000个令牌(如ChatGPT的早期版本提供的)可以包含一个中等大小的文章或一章的大部分内容。另一方面,一个上下文窗口大小为16,000至32,000个令牌(OpenAI目前提供的)可以涵盖一整本小说或一篇长篇研究论文。对于真正大规模的分析,最近由Anthropic(Claude的制造商)引入的上下文窗口大小为100,000个令牌可以涵盖多本书或大量文章的集合。

了解这些限制在使用AI系统时至关重要。这意味着如果你向AI模型提供的文本长度超过了其上下文窗口,系统可能无法捕捉到完整的上下文并可能丢失关键信息。这强调了仔细考虑所使用的文本量并优化其适应模型限制的重要性。

运营成本

关注令牌的另一个原因是它们对与AI相关的运营成本的影响。利用AI服务的成本通常与处理的令牌数量相关。以OpenAI为例,当你向GPT-3(AI服务背后使用的产品)发出请求时,每处理1K个令牌的成本为0.0015美元。在这个例子中,使用4K个令牌的完整上下文窗口将花费0.006美元。GPT-4的成本是其的20倍,每处理1K个令牌的成本为0.03美元。

在自然语言处理任务中,不同的语言可能每个词的令牌数量不同。例如,英语和西班牙语通常具有单词和令牌之间的一对一对应关系。然而,韩语、阿拉伯语或德语等语言由于其语法和形态学的原因,每个词往往有更多的令牌。相同的请求在英语中可能比你使用的语言更贵50%至100%。

优化提示或输入长度对于管理成本至关重要。通过减少传达所需信息所需的令牌数量,可以降低操作成本。

结论

AI令牌是AI系统中的微小构建块,用于表示文本、图像和声音等不同类型的信息。这些令牌使得AI模型能够理解和处理各种任务,并为人工智能的能力提供基础。对于用户来说,理解令牌的概念可以帮助更好地与AI系统互动,以及优化操作成本。在未来,随着技术的进一步发展,令牌的角色将继续扮演着重要的角色,推动AI技术的进步。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注