2025中国法律法规大全
40.05MB · 2025-11-13
从Token到向量,探索AI理解语义的奇妙转变
朋友们,欢迎回到我的大模型学习之旅!在上一篇文章中,我们一起攻克了Token这个概念,知道了它是大模型处理文本的基本单位。今天,我们要继续深入,探索一个更加神奇的概念——Embedding(嵌入)。
如果说Token是给文字"分装",那么Embedding就是给文字"安家"。让我们开始这段奇妙的旅程吧
Embedding将离散的词语映射到连续的向量空间中,使语义相近的词在空间中彼此靠近
想象一下,你正在整理一个巨大的图书馆:
传统方式:按书籍的编号顺序排列
A-001:《人工智能导论》A-002:《机器学习实战》B-001:《红楼梦》B-002:《百年孤独》这样排列,虽然整齐,但内容相关的书籍可能相隔甚远。
智能方式:按内容主题给每本书分配"坐标"
[0.9, 0.1, 0.8, ...][0.85, 0.2, 0.75, ...][0.1, 0.9, 0.05, ...][0.15, 0.85, 0.1, ...]在这个智能系统中:
这就是Embedding的核心思想——把文字映射到数学空间中的点!
在向量空间中,语义相近的词(如“猫”和狗”)彼此靠近,而不同类别的词则距离较远
Embedding(嵌入) :将离散的符号(如单词、句子)转换为连续向量表示的技术。
换句话说:
# 假设的简单Embedding示例
"猫" -> [0.3, 0.8, -0.2]
"狗" -> [0.4, 0.7, -0.1]
"汽车" -> [-0.5, 0.1, 0.9]
"飞机" -> [-0.6, 0.2, 0.8]
在这个例子中:
让计算机"理解"语义
计算机只懂数字,不懂文字。Embedding把文字变成数字,同时保留了语义信息:
解决"词汇鸿沟"问题
传统方法中,"电脑"和"计算机"被认为是完全不同的词。但在Embedding空间中,它们的向量会很接近,因为含义相似。
为深度学习提供输入
神经网络需要数值输入,Embedding正好提供了这种能力,让模型可以处理文本数据。
这是Embedding最让人惊叹的部分——词向量可以进行数学运算!
vector("国王") - vector("男人") + vector("女人") ≈ vector("女王")
北京 - 中国 + 法国 ≈ 巴黎苹果 - 水果 + 公司 ≈ 微软(科技公司)
这种特性说明,Embedding不仅编码了词义,还编码了词与词之间的关系!
经典的词向量类比运算:通过向量加减捕捉语义关系
理解Embedding的产生过程,能让你真正掌握它的本质:
核心思想:一个词的含义,可以由它周围出现的词来决定。
训练过程:
Word2Vec
:经典的词嵌入方法
GloVe
:基于全局词频统计
BERT等Transformer
:生成上下文相关的嵌入
理解的基石
大模型首先将Token转换为Embedding,然后基于这些向量进行各种计算。可以说,Embedding是模型理解语言的起点。
语义搜索的核心
当你在智能搜索中输入问题时,系统:
推荐系统的原理
电商平台使用Embedding来:
文本分类的依据
通过Embedding,模型可以判断:
理论说再多,不如亲身体验。我强烈推荐你尝试以下工具:
TensorFlow Embedding Projector
:可以直观看到词向量的分布 projector.tensorflow.org/
ANN Benchmark
:体验最近邻搜索 ann-benchmarks.com/index.html
找一段文本,尝试:
TensorFlow Embedding Projector 可视化工具,可交互式探索高维词向量
当你深入使用时,会遇到这些概念:
静态
:每个词有固定的向量(如Word2Vec)
动态
:同一个词在不同上下文中向量不同(如BERT)
TensorFlow Embedding Projector搜索dog,可以看到和cat、cow、rat、bird等。
不仅词可以有Embedding,整个句子、段落、文档都可以被表示为向量。
现在还有图像Embedding、音频Embedding,让不同模态的数据可以在同一个空间中进行比较。
基于对Embedding的理解,这里有几点实用建议:
选择合适的维度
:不是维度越高越好,需要平衡效果和效率
考虑上下文相关性
:对于需要理解语境的任务,选择动态Embedding
注意领域适应性
:通用Embedding可能不适合专业领域
利用预训练模型
:大多数情况下,使用现成的Embedding比从头训练更高效
结语
恭喜!现在你已经掌握了Embedding这个神奇的概念。我们来回顾一下今天的重点:
从Token到Embedding,我们看到了AI如何一步步地理解人类语言。Token解决了"分词"问题,Embedding解决了"理解"问题。
学习就像爬山,每掌握一个概念,就登上了一个新的高度。如果你对Embedding还有任何疑问,欢迎随时回看这篇文章。下节课见!
如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。