飞书app
204.66MB · 2025-10-11
在过去两年里,大型语言模型(LLMs)重塑了人工智能的版图。从简单的基于提示词的交互到横跨各行业的复杂应用,LLM 的能力在架构、训练技术与微调策略上的突破推动下迅速演进。随着这些能力的提升,从 ChatGPT 到截至 2025 年 4 月的“智能体(agentic)系统”的转变,是一条顺理成章的演化路径——将推理、规划与行动能力纳入系统,构成了一次重大的技术飞跃。
本章将探讨 LLM 的基础:它们如何构建、如何被使用,以及预训练模型与微调模型之间的差异。更重要的是,本章将为下一次飞跃——AI 智能体的崛起——铺垫舞台。
本章将涵盖以下主题:
读完本章后,你将清晰理解 LLM 的演进轨迹、其训练与部署方式,以及为何通往真正智能系统的道路必然指向 AI 智能体的出现。
你可以在本书配套的 GitHub 代码库获取本章的完整代码:github.com/PacktPublis…
由于基础模型(foundation models)的出现——这类通用、可在广泛任务间迁移的模型——AI 经历了一次根本性的变革。其中,LLM 居于舞台中央,通过自然语言重新定义了我们与机器的交互方式。
在基础模型崛起之前,AI 领域主要由“窄人工智能”主导——系统被构建来完成某一个特定任务,且仅限于此。每个用例都需要一条专属流水线:独特的数据集、专门的模型架构,以及定制化的训练流程。想做垃圾邮件分类?就构建一个垃圾邮件过滤器。需要从文档中抽取人名和地名?就训练一个命名实体识别模型。想摘要新闻?那又得再训练一个“量身定制”的模型。
这种割裂式方法存在多重弊端:模型脆弱——只在其狭窄训练域内表现良好——且维护成本高。任务或数据分布稍一变化,往往就意味着要从头开始重新训练。
基础模型的引入,标志着我们构建与思考 AI 系统方式的根本性转变。此类模型在大规模、跨领域、跨任务的海量数据上进行预训练。其目标是在这一阶段让单一模型习得对世界的通用理解——语言、结构与模式。一旦这种通用知识被嵌入,便可用极少的额外数据与算力,将模型适配到具体任务。
例如,不再需要为“法译英”单独训练一个模型,我们可以取用一个预训练的基础模型,再用较小规模的翻译数据集对其进行微调。预训练模型已经具备对语言句法、语法与语义的理解;微调只是在将这种理解对齐到特定目标。
基础模型背后的关键创新是迁移学习(transfer learning) 。模型不再从零开始学习,而是把从通用训练中获得的知识迁移到具体问题上。这显著提升了效率,减少了对标注数据的需求,并使 AI 系统更加稳健与灵活。
此外,基础模型并不局限于语言。它们跨越多种模态:有些模型不仅能处理和生成文本,也能处理图像、音频或代码。
本质上,基础模型相当于 AI 的“通用底脑”——一次训练,多次复用。正是这种可扩展性与适配性,解锁了构建智能系统的全新可能,为更自主、更具交互性的应用(如 AI 智能体)奠定了基础。
前文提到,基础模型能够处理多种数据形式。在这一模型谱系中,也存在专注于单一数据类型的“数据特定模型”,LLM 正是其中聚焦文本数据的典型代表。
LLM 本质上是基础模型的“语言特化”版本。它们建立在深度神经网络架构之上——尤其是 Transformer——并通过“预测序列中的下一个词”进行训练。但这个看似简单的目标却解锁了令人惊讶的涌现行为:LLM 能进行对话、回答复杂问题、写代码,甚至模拟推理。
随着模型扩展,它们开始表现出如下涌现特性:
这些能力不仅仅是“更高的分数”,而是质变的行为,只有在规模化时才会“涌现”,从而赋予 LLM 跨领域、且与现实应用密切相关的广泛技能。
每个 LLM 的核心都是强大的神经网络架构——最常见的是 Transformer。此类网络通过在数十亿文本样本上学习统计关系,来处理并理解数据(尤其是人类语言)中的模式。虽然松散地受人脑结构启发,但 LLM 完全通过数学运作:信息在相互连接的层之间传递,并在训练过程中自适应地更新。
为了让语言可被计算,第一步是把文本转成数字,因为神经网络无法直接处理原始文本。这通过两个关键步骤完成——分词与嵌入:
一旦输入被分词并嵌入,它就会流经 Transformer 网络本身。不同于只有少数隐藏层的传统神经网络,LLM 使用几十层,甚至上百层的堆叠层,每一层都包含称为“注意力头(attention heads)”的机制。注意力层帮助模型判断在给定预测中输入的哪些部分最为相关。比如在补全一句话时,模型会学会更关注那些会影响下一个词的特定前文词语。
训练 LLM 的过程,就是让它随着时间推移做出更好的预测。这通过一种称为**反向传播(backpropagation)**的方法完成:模型把自己预测的词与正确答案进行比较,计算偏差程度,然后更新其内部参数,以减少未来的误差。
假设你输入:The cat is on the ... 。模型会通过为可能的续写(如 mat、roof 或 sofa)分配概率来预测下一个词。它并非随机猜测,而是依赖训练中见过的模式。
这一过程会在海量数据上反复进行——数以百万、数以十亿计的句子——使模型逐步把握语言的结构与韵律。最终得到的系统不仅能补全句子,还能进行对话、解决问题,并给出具有上下文意识、往往相当流畅的语言回应。
当 LLM 的训练阶段结束后,我们需要用该模型来预测下一个 token,这个过程称为推理(inference) 。
在机器学习与 AI 的语境中,推理是指将已训练好的模型运行在新的输入数据上,以生成预测或响应。在 LLM 中,推理包括处理一个提示(prompt)并产生基于文本的输出;对于大型模型而言,这通常需要相当可观的计算资源。
LLM 通常可通过 API 访问,使开发者无需自行管理复杂的基础设施。该方式简化了集成,让 AI 驱动的应用更具可扩展性与性价比。
诸如 OpenAI、Azure AI 与 Hugging Face 等 LLM 提供商会提供能够实时处理请求并返回响应的 API。一般流程包括:
现在,一个合理的问题是:如果我想在本地电脑上运行模型怎么办? 为回答这个问题,我们先区分以下两类:
不过,即便是开源 LLM,许多开发者依然选择通过 Azure AI Foundry、Hugging Face Hub 等平台提供的 API 来使用这些模型。
这种做法具有多重优势:
在 AI 智能体以及更广义的 AI 驱动应用场景中,最普遍的路径是通过 API 消费 LLM。例外多见于离线/断网场景(如海上平台或偏远地点运行),或数据属地等监管限制(要求模型驻留在无公有云的特定国家/地区)。
近几年,生成式 AI(GenAI)领域快速演进,出现了在效率、可适配性与推理能力上不断突破的新技术。下文将介绍若干显著提升 GenAI 模型性能、同时降低计算开销的最新方法。
**小型语言模型(SLMs)**日益受到重视:许多组织在寻求更高效、成本更优的替代方案,以取代动辄千亿参数级的超大模型。
SLM 是一类更精简的 GenAI 模型,能够高效处理与生成自然语言,相比更大的同类模型占用更少算力。与可能拥有数千亿参数的 LLM 不同,SLM 通常只有数百万至数十亿参数。
由于体量更小,SLM 更易部署在硬件受限环境,如移动设备、边缘计算系统与离线应用。通过聚焦特定领域任务,SLM 在其专长范围内可获得可比 LLM 的表现,同时具备更高的性价比与能效。
SLM 可以在预训练阶段就面向特定领域进行设计;也可以先进行通用预训练(类似 LLM),再在后续调整与定制。将模型进一步专精于某一具体领域的过程称为微调(fine-tuning) 。
微调使用较小的、任务定制的数据集,把基础模型(foundation model)适配到特定应用。与直接训练一个全新模型不同,微调会修改并优化预训练模型的参数,使其朝向新任务的目标收敛——核心思想是复用预训练阶段获得的通用知识,再将其对齐到新任务,而非从零开始训练。
在前面的图中,你可以看到 OpenAI 预构建模型进行微调(fine-tuning)的工作示意图。其核心思路是:先有一个带有通用权重/参数的预训练模型,然后向模型喂入自定义数据,通常以“键值(key-value)”形式的 prompt–completion 对。在实践中,你是在提供一组示例:针对特定问题(prompts),模型应该如何作答(completions)。
下面是这些键值对可能的示例格式:
{"prompt": "<prompt text>", "completion": "<ideal generated text>"}
{"prompt": "<prompt text>", "completion": "<ideal generated text>"}
{"prompt": "<prompt text>", "completion": "<ideal generated text>"}
...
训练完成后,你将得到一个定制化模型,它对某个给定任务(例如对公司文档进行分类)特别适配。
微调的主要收益在于:无需从零开始重新训练,即可将预构建模型定制到你的用例上;同时只需要更小的训练数据集,因此训练时间与算力需求更低。与此同时,模型仍保留在大规模原始数据上训练所学得的生成能力与精度。
微调对 SLM(小型语言模型) 尤其有价值,因为它能在保持高效的同时获得较高性能。
为优化微调流程(尤其针对 SLM),已经发展出多种进阶技术:
通过将 SLM 与上述高效微调方法结合,AI 应用能够在不承担超大模型的计算与成本负担的前提下,达到较高水平的性能,使 AI 在各行业与用例中更易用、可持续且可扩展。
模型蒸馏(又称知识蒸馏,Knowledge Distillation, KD)是让“重量级”LLM(参数规模庞大)将其知识迁移给更轻量的 LLM 或 SLM,同时尽量不损失性能的过程。
鉴于最强大的 LLM 往往拥有数十亿乃至上万亿参数,训练与推理的计算成本都非常高,蒸馏的主要优势包括:
典型的蒸馏流程包括:
随着 LLM 的规模与算力需求不断增长,蒸馏(distillation)技术使其在保留高质量输出的同时,更便于实际部署。
到 2024 年末,一类被称为推理语言模型(RLMs, Reasoning Language Models)的新模型出现,旨在把复杂问题求解能力扩展到传统 LLM 之外。它们代表了 GenAI 开发的重要转向:通过内部斟酌与逐步推理来处理复杂任务。
RLM 示例:
RLM 的关键差异点在于它们在回答前会“花时间”:不同于传统 LLM 的单次前向生成,RLM 会进行内部斟酌,在得出结论前处理多步推理。这显著增强了其处理复杂多步问题的能力——这对即将讨论的 AI 智能体至关重要。
此外,RLM 针对需要高级推理的任务进行专门训练(如复杂数学、科学研究、复杂编程),因此在这些领域往往优于传统 LLM。
随之而来的自然代价是:RLM 的内部处理与延展推理路径使其在单次查询上往往需要更多算力与时间。这种权衡以更高资源消耗换取在深度推理任务上的更优表现。
2025 年 1 月,业界将目光转向突破性模型 DeepSeek R1。
DeepSeek 是一家成立于 2023 年的中国 AI 公司,推出了一系列先进 LLM,最终在 R1 系列上形成突破:证明高性能模型可以以更高效、低成本的方式训练与获得。更重要的是,DeepSeek 将其训练方法与模型一并开源,任何人都可下载并在本地运行。
促成 DeepSeek 成为 GenAI 重要跃迁力量的核心特征包括:
DeepSeek 的独特之处在于其训练思路。R1-Zero 模型不依赖大量人工标注数据,而是仅使用强化学习(RL)进行训练。RL 通过“试错—奖励”的方式学习:当模型产生更理想的输出时给予奖励,鼓励其自行发展推理能力。
这种“纯 RL”方法拓展了边界,但初期也有取舍:语言有时不够可读或一致。为此,后续 R1 采用多阶段训练:
结果:在更少资源且无大规模人工标注的前提下,模型质量可与顶级替代方案(如 OpenAI o1)比肩。
在尖端硬件常成瓶颈的行业背景下,DeepSeek 展示了以策略弥补硬件的可能:其旗舰 DeepSeek-R1 使用约 2000 张 NVIDIA H800 GPU,历时 55 天完成训练,成本约 560 万美元,得益于上述训练策略的高效性。考虑到美国对向中国出口高端 AI 芯片的限制,这一成果更凸显了其对可用资源的优化能力。
DeepSeek 坚持开源,在全球范围内营造了协作生态,加速创新。通过公开其模型与训练方法,DeepSeek 邀请全球研究者与开发者共同改进与构建。
DeepSeek 的进展在全球 AI 社区引发连锁反应,对既有玩家形成挑战,也促使业界重新审视既定实践。
生成式 AI 的快速演进,正把我们从简单自动化带向能够推理、学习与决策的更智能系统。近几年,LLM 颠覆了人机交互方式,使对话更自然、解题更精巧。
下面让我们回顾促成 AI 智能体崛起的一系列关键里程碑。
自 2022 年 11 月 ChatGPT 发布以来,用户首先拥抱的用例就是对话式文本生成,例如:
这些场景对你是否似曾相识?
LLM 的文本生成之所以具有颠覆性,是因为它根本性改变了人类与技术交互的方式,让 AI 以前所未有的流畅度与上下文理解来生成类人文本。
注(Note)
在此语境中,“文本”也包含代码。自一开始,LLM 就展现出在编程任务上的强大能力:代码生成、调试、优化、翻译与讲解等。
LLM 带来了传统 AI 与自然语言处理领域前所未有的跃迁:它们可以按需生成连贯、富有创意且上下文相关的文本。突然之间,只要能上网,每个用户都能用到这项惊人的技术——这民主化了高质量写作的获取,加速了营销、客服等行业的自动化,甚至通过为叙事、诗歌与剧本提供辅助而重塑创意领域。
然而,最初的狂热之后,人们很快意识到一个重大限制:ChatGPT(以及更广义的 LLM)所承载的知识受限于其训练数据(即参数化知识)。即便训练数据覆盖了整网,真实世界的需求仍需面对动态的、私有的或小众的数据集——它们并不在通用训练语料之中。
于是,“和你的数据聊天”成为 GenAI 路线图上的下一座里程碑。
“我想和我的数据聊天。”——这句话指向一项具体技术:检索增强生成(RAG, Retrieval-Augmented Generation) 。RAG 让 LLM 先检索外部信息再生成答案,从而提升准确性、上下文相关性,并降低幻觉风险。
定义(Definition)
在语言模型语境中,幻觉(hallucination)指看似合理却不真实或缺乏事实支撑的内容生成。在需要高准确性的场景下,这会破坏信任。
将 LLM 的回答限定在一个预定义知识库之内的过程称为锚定(grounding) 。RAG 的关键组件是向量数据库(vector DB) ,它用称为嵌入(embeddings)的向量表示高效存储与检索信息,使模型能进行语义检索而非仅做关键词匹配。
RAG 的步骤如下:
检索(Retrieval)/ 寻找相关信息
不再只依赖预训练记忆,RAG 首先从已向量化的外部知识库检索相关数据(PDF、Word、报告、论文、结构化记录、表格、内部档案等)。
当你提出问题时,RAG 管道会将查询向量化,并计算该向量与知识库分片向量之间的距离;由于嵌入的性质,距离越小,语义越相近。这保证了模型不是“凭记忆作答”,而是在主动检索你数据中最新且相关的内容。
增强(Augmentation)/ 提升模型理解
系统检索到相关文档后,会将它们与原始问题一起馈入模型,为其提供富上下文的输入。
这样,AI 不再猜测或只靠通识,而是基于可溯源的上下文来回答,因而:
生成(Generation)/ 产出具上下文意识的回答
在获得增强上下文后,AI 生成的回答会更信息充分、更准确,并与检索数据保持一致。最终输出:
在接下来的章节里,我们将进一步讨论 RAG 以及它在智能体系统中的作用。
到目前为止,我们只谈了文本数据;但如果我们希望用图像、视频或音频与模型交互呢?
在 GenAI 中,多模态指模型能够处理并生成多种数据类型(文本、图像、音频、视频)。**多模态大模型(MLLMs)**在传统 LLM 的基础上引入多模态能力,从而获得更全面的理解与更丰富的交互。
近年来的进展(如 OpenAI GPT-4V、Google Gemini)展示了 MLLM 如何分析图像、生成描述、处理语音输入,甚至在单一工作流中跨形式进行推理。
MLLM 的关键特征在于:它们与“纯文本”LLM 一样具备泛化与适应能力,但还能处理异构数据,以更贴近人类多感官交互的方式理解外界。
一个典型示例是 OpenAI GPT-4o,它能通过文本、图像与音频与用户互动。下面让我们看几个与图像相关的例子:
如你所见,模型能够对图像进行分析并据此推理。现在我们继续,请模型生成一幅插图:
关于 LMM 最有趣的一点是:它们保留了推理能力,因此适合在异构数据场景中进行复杂推理。让我们来看最后这个示例(仅展示响应的前几行):
如下所示,这在各行业开启了广阔的应用前景;我们将在接下来的章节中看到一些具体例子。
LLM 已展现出在生成连贯文本、回答问题,乃至进行有限问题求解方面的出色能力。然而,就真实世界应用而言,其根本设计也带来若干限制:
为解决这些挑战,AI 智能体(AI agents)引入了一层额外的智能,使模型能够自主行动、分步骤推理、与外部环境交互,并从以往互动中学习。
我们将在下一章定义 AI 智能体的“解剖结构”。现在你可以将其初步理解为:一种将 LLM 与记忆、规划、多步推理等附加能力结合的系统,以尽量少的人类介入完成任务,从而实现更高程度的自主性。不同于只产出静态回复的标准 LLM,AI 智能体能够:
从本质上讲,AI 智能体是能处理超越简单问答的复杂任务的智能助理。我们将在后续章节中深入探讨。
过去两年里,AI 经历了深刻转型:从简单的 LLM API 调用,迈向更复杂、交互式且具自主性的系统。LLM 的快速演进体现在 RAG、微调与面向推理的架构等创新,这些创新旨在提升效率、适应性与成本效益。
尽管如此,仅靠 LLM 仍不足以满足对能自主运行、做出决策并与环境有意义交互的 AI 系统的日益增长的需求。当前的转向标志着 AI 开发的关键时刻:焦点不再只是“把模型做大”,而是“让模型更聪明”。我们不再把 AI 视作对孤立提示被动回应的工具,而是在设计可行动、可学习、可适应复杂现实任务的智能体系统。
在下一章,我们将考察 AI 智能体的兴起、其核心组成部分,以及它们可能呈现的多种形态。