大模型Token:积木式理解 | 构成、原理与作用 | 意义与应用全解

AI前沿1周前发布 yizz
2,360 0 0
广告也精彩

大模型Token:积木式理解与应用

什么是Token?,,#Token

Token的定义:大模型的“分词器

当我们谈论像DeepSeek、GPT这样的大型语言模型时,会提到一个名为“分词器”的小助手。分词器的作用是将输入的文本切割成更小的单位,而这些被切分出来的小块,就叫做Token

Token的构成:字、词、短语、符号等,,#文本处理

Token的构成形式多样,它可以是一个单独的汉字、两个汉字组成的词语、三个字构成的常见短语,甚至可以是一个标点符号,一个单词或者几个字母组成的一个词缀。

例如,句子“今天天气不错”可能被切分成“今天”、“天气”、“不错”三个Token

Token的作用:大模型的输入与输出单位,,#效率提升

大模型在输出文本时,也是一个Token一个Token地往外“蹦”,所以看起来像打字一样。

为什么Token可以是一个字、词或短语?,,#优化

人脑的运作机制:整体优先,节省脑力

为了理解Token的多样性,可以先思考人脑是如何处理语言的。当我们阅读时,大脑倾向于将有含义的词语或短语作为一个整体来对待,而不是逐字逐句地分析。例如,单独看“苹”这个字可能需要思考一下,但如果出现在“苹果”这个词语中,就能立即识别。

这种处理方式是为了节省脑力,提高效率。如果将“今天天气不错”这句话拆成六个字来处理,就需要处理六个部分;但如果划分成三个有意义的词语,就只需要处理三个部分之间的关系,从而减轻大脑的负担。

分词器原理:模拟人脑,优化模型处理,,#词汇表

人工智能也可以模拟人脑的这种处理方式,因此就有了分词器分词器的作用就是帮助大模型将大段的文本拆解成大小合适的Token

分词器的工作方式:统计与词汇表,,#Qwen

分词器通过统计大量的文本数据,发现某些字、词或短语经常一起出现,就将它们打包成一个Token,并赋予一个数字编号,然后将其存储到一个庞大的词汇表中。

例如,分词器可能发现“苹果”这两个字经常一起出现,就将它们打包成一个Token,并分配一个编号。下次再遇到“苹果”这两个字,就可以直接识别这个组合。

分词器还会将常见的字、词、符号等都进行打包和编号,最终形成一个包含数万甚至更多Token词汇表。这样,大模型在输入和输出时,只需要面对一堆数字编号,再由分词器按照Token表转换成人类可以理解的文本和符号,从而大大提高工作效率。

实例演示:Token划分示例

以下是一些Token划分的例子,基于不同的模型,结果可能会有所不同:

  • “哈哈”:一个Token
  • “哈哈哈”:一个Token
  • “一心一意”:三个Token
  • “鸡蛋”:一个Token
  • “鸭蛋”:两个Token
  • “关羽”:一个Token
  • “张飞”:两个Token
  • “孙悟空”:一个Token
  • “沙悟净”:三个Token

此外,“苹果”的“苹”字,在DeepSeek模型中是两个Token,但在Qwen模型中却是一个Token

Token的意义与应用,,#计费

Token大模型的积木:理解与生成的基础

Token大模型世界里的一块块积木。大模型之所以能够理解和生成文本,就是通过计算这些Token之间的关系,来推算出下一个Token最有可能是哪一个。

Token与计费:计算量的体现,,#成本

几乎所有大模型公司都是按照Token的数量来计费,因为Token的数量直接对应了背后的计算量。

Token的广泛应用:同名不同义

Token这个词在人工智能领域之外的其他领域也经常出现,但含义可能不同。大家可以理解为只是碰巧都叫“Token”这个名字而已。

感悟

我认为:大模型Token如同语言的细胞,虽小却蕴含着无限的可能性。如同鲁迅先生笔下的人物,每个Token都有其独特的意义和价值,共同构成了复杂而精彩的文本世界。

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!