当我们输入“你好,帮我写个代码”时,大模型(LLM)看到的并不是这些汉字,而是一串冰冷的数字。要理解 2026 年那些复杂的 MCPSkills,我们得先看清模型底层的两个基本动作:拆解(Tokenization)映射(Embedding)

1. Tokenization:文字的“碎纸机”

模型不能直接处理文本。它需要把长句子拆成一个个小的单位,这些单位就叫 Token (词元)

  • 它不是按“字”拆的: 英文可能按单词或词根拆,中文可能按词组。
  • Token 是模型的“乐高积木”: 每一个 Token 在模型的词典里都有一个固定的编号(ID)。

为什么 AI 算不对“strawberry”里有几个 r?

这是一个经典梗。原因就在于 Tokenization。 在模型的眼里,strawberry 并不是由 s-t-r-a... 组成的,它可能被切成了 straw + berry 两个 Token。模型只看到了两个积木块,它并不知道 straw 里面藏了几个 r


2. Embedding:给每个词一个“经纬度”

拆完 Token 后,模型面临一个大问题:数字 ID(比如 101, 102)并不能代表意义。101 和 102 在数字上挨着,但它们代表的词可能毫无关系。

于是,Embedding(向量化) 登场了。它把每个 Token 映射到一个高维空间里的坐标(向量)

  • 语义相近 = 空间距离近: 在这个上千维的空间里,“猫”和“狗”的坐标离得很近,而“猫”和“手机”离得很远。
  • 数学即逻辑: 这种坐标让模型可以进行“语义运算”。

向量化的直观表达

想象一个极简的二维空间:

代码段

graph LR
    A["文字: 国王"] --> B("坐标: 0.9, 0.1")
    C["文字: 皇后"] --> D("坐标: 0.8, 0.9")
    E["文字: 男人"] --> F("坐标: 0.2, 0.1")
    G["文字: 女人"] --> H("坐标: 0.1, 0.9")
    
    subgraph 语义运算
        Result["国王 - 男人 + 女人 ≈ 皇后"]
    end

3. 从底层逻辑看未来的“加载原理”

为什么我们要先学这两个枯燥的概念?因为它们是后面所有高级功能的基石:

  1. 为什么需要 RAG? 因为模型只能处理一定数量的 Token(上下文窗口有限)。RAG 的本质就是:先把海量文档变成 Embedding(坐标) 存起来,等用户提问时,寻找坐标最接近的片段“加载”给模型。
  2. 为什么需要 MCP? 无论外部数据是什么格式,最终都要通过 MCP 传进来,被转换成 Token 才能被模型的大脑处理。

总结:第一课的心得记录

  • AI 不识字: 它只认识经过 Tokenization 拆解后的数字编号。
  • 意义在于位置: Embedding 赋予了数字语义,让 AI 能够通过计算“距离”来理解谁和谁更有关系。
  • 限制源于成本: 每一个 Token 的生成都需要消耗 GPU 计算资源,这就是为什么长文本处理在 2026 年依然是技术核心。
本站提供的所有下载资源均来自互联网,仅提供学习交流使用,版权归原作者所有。如需商业使用,请联系原作者获得授权。 如您发现有涉嫌侵权的内容,请联系我们 邮箱:alixiixcom@163.com