您的位置: 首页> 开发工具

大模型底层逻辑（一）：词元化与向量化，AI 到底怎么“读”懂世界？

匿名上传

发布时间:2026-04-08 15:06:01

当我们输入“你好，帮我写个代码”时，大模型（LLM）看到的并不是这些汉字，而是一串冰冷的数字。要理解 2026 年那些复杂的 MCP 或 Skills，我们得先看清模型底层的两个基本动作：拆解（Tokenization） 与 映射（Embedding） 。

1. Tokenization：文字的“碎纸机”

模型不能直接处理文本。它需要把长句子拆成一个个小的单位，这些单位就叫 Token (词元) 。

它不是按“字”拆的： 英文可能按单词或词根拆，中文可能按词组。
Token 是模型的“乐高积木”： 每一个 Token 在模型的词典里都有一个固定的编号（ID）。

为什么 AI 算不对“strawberry”里有几个 r？

这是一个经典梗。原因就在于 Tokenization。在模型的眼里，strawberry 并不是由 s-t-r-a... 组成的，它可能被切成了 straw + berry 两个 Token。模型只看到了两个积木块，它并不知道 straw 里面藏了几个 r。

2. Embedding：给每个词一个“经纬度”

拆完 Token 后，模型面临一个大问题：数字 ID（比如 101, 102）并不能代表意义。101 和 102 在数字上挨着，但它们代表的词可能毫无关系。

于是，Embedding（向量化） 登场了。它把每个 Token 映射到一个高维空间里的坐标（向量） 。

语义相近 = 空间距离近： 在这个上千维的空间里，“猫”和“狗”的坐标离得很近，而“猫”和“手机”离得很远。
数学即逻辑： 这种坐标让模型可以进行“语义运算”。

向量化的直观表达

想象一个极简的二维空间：

代码段

graph LR
    A["文字: 国王"] --> B("坐标: 0.9, 0.1")
    C["文字: 皇后"] --> D("坐标: 0.8, 0.9")
    E["文字: 男人"] --> F("坐标: 0.2, 0.1")
    G["文字: 女人"] --> H("坐标: 0.1, 0.9")
    
    subgraph 语义运算
        Result["国王 - 男人 + 女人 ≈ 皇后"]
    end

3. 从底层逻辑看未来的“加载原理”

为什么我们要先学这两个枯燥的概念？因为它们是后面所有高级功能的基石：

为什么需要 RAG？ 因为模型只能处理一定数量的 Token（上下文窗口有限）。RAG 的本质就是：先把海量文档变成 Embedding（坐标） 存起来，等用户提问时，寻找坐标最接近的片段“加载”给模型。
为什么需要 MCP？ 无论外部数据是什么格式，最终都要通过 MCP 传进来，被转换成 Token 才能被模型的大脑处理。