庄园咖啡厅
47.60M · 2026-04-08
在上一篇中,我们知道了 AI 把文字拆成了 Token,并给它们分配了空间坐标(Embedding)。但问题来了:孤立的单词是没有意义的。
比如“苹果”这个词:
AI 是如何根据周围的词来确定一个词的具体含义的?答案就是 Attention(注意力机制) 。
想象你在参加一个嘈杂的鸡尾酒会。虽然屋子里有 50 个人在说话,但当有人喊你的名字时,你会立刻过滤掉所有背景噪音,只听那一句话。
大模型的注意力机制也是如此: 当它处理一个 Token 时,它会给序列中所有的其他 Token 打分,决定哪些词对理解当前词最重要。
以句子 The animal didn't cross the street because it was too tired 为例,看 AI 如何理解 it:
代码段
graph TD
IT[Token: it]
subgraph "Attention Weights (权重分配)"
IT -- 85%权重 --> Animal[animal]
IT -- 5%权重 --> Street[street]
IT -- 10%权重 --> Tired[tired]
end
Animal --> Result[结论: it 指代的是 animal]
style Animal fill:#f96,stroke:#333
这是大模型面试或深入学习时必考的“三剑客”。我们可以把注意力计算想象成一次相亲/匹配过程:
流程: Q 与所有的 K 进行匹配计算,算出一个相关性分数,然后根据分数把对应的 V 加权求和,就得到了这个词在当前语境下的真实含义。
注意力机制虽好,但它有个致命弱点:计算量巨大。 因为每一个 Token 都要和之前所有的 Token 算一遍关系,随着字数增加,计算量呈指数级增长。
这就是为什么:
为什么 System Prompt(系统提示词) 放在最前面最有效?
因为在注意力机制中,第一批进入窗口的 Token 会被后续所有的 Token “反复观看”。
Windows + RTX 5090 + ComfyUI 桌面版 安装 SageAttention 完全手册
08-Java工程师的Python第八课-框架入门
2026-04-08
2026-04-08