喵喵宠物医院
86.09M · 2026-04-08
当我们输入“你好,帮我写个代码”时,大模型(LLM)看到的并不是这些汉字,而是一串冰冷的数字。要理解 2026 年那些复杂的 MCP 或 Skills,我们得先看清模型底层的两个基本动作:拆解(Tokenization) 与 映射(Embedding) 。
模型不能直接处理文本。它需要把长句子拆成一个个小的单位,这些单位就叫 Token (词元) 。
这是一个经典梗。原因就在于 Tokenization。 在模型的眼里,strawberry 并不是由 s-t-r-a... 组成的,它可能被切成了 straw + berry 两个 Token。模型只看到了两个积木块,它并不知道 straw 里面藏了几个 r。
拆完 Token 后,模型面临一个大问题:数字 ID(比如 101, 102)并不能代表意义。101 和 102 在数字上挨着,但它们代表的词可能毫无关系。
于是,Embedding(向量化) 登场了。它把每个 Token 映射到一个高维空间里的坐标(向量) 。
想象一个极简的二维空间:
代码段
graph LR
A["文字: 国王"] --> B("坐标: 0.9, 0.1")
C["文字: 皇后"] --> D("坐标: 0.8, 0.9")
E["文字: 男人"] --> F("坐标: 0.2, 0.1")
G["文字: 女人"] --> H("坐标: 0.1, 0.9")
subgraph 语义运算
Result["国王 - 男人 + 女人 ≈ 皇后"]
end
为什么我们要先学这两个枯燥的概念?因为它们是后面所有高级功能的基石: