1Music
3.3MB · 2026-04-06
生成式推荐系统的核心是利用生成式模型(尤其是大语言模型)来生成个性化的推荐内容。其基础架构通常包含以下关键组件:
| 维度 | 传统推荐算法 | 生成式AI推荐 |
|---|---|---|
| 核心范式 | 判别式:从已有物品中“筛选”出最可能喜欢的。 | 生成式:可“创造”或“推理”出最适合的推荐,甚至包括新组合。 |
| 处理的数据 | 主要以user特征和item特征为主。 | 主要处理自然语言、语义ID序列等,对非结构化数据理解更深。 |
| 交互方式 | 被动、静态。用户通过点击等隐式反馈交互。 | 主动、动态、对话式。用户可通过自然语言直接表达和 refining 需求。 |
| 可解释性 | 通常为“黑盒”,或依赖事后归因(如SHAP)。 | 原生可解释。可通过生成推荐理由、展示推理过程来提升透明度。 |
| 冷启动问题 | 较严重,依赖用户/物品的初始交互数据。 | 表现更好。利用LLM的先天知识和对内容语义的理解,能有效处理新物品和新用户。 |
| 多样性 & 惊喜度 | 容易陷入“信息茧房”,过度推荐相似内容。 | 更强。能通过指令控制或模型本身的创造性,发现跨品类的、令人惊喜的关联。 |
| 系统架构 | 相对固定、分阶段(召回、排序、重排)的流水线。 | 更灵活,以LLM为中央控制器,动态规划和执行推荐步骤。 |
生成式推荐系统将推荐问题视为一个序列生成任务,其核心流程可分为以下四个基本环节:
1. 物料表示
目标:将系统中的每个物品(Item)转化为一个机器可生成的、简短的标识符序列。
| 方法 | 核心思想 | 优点 | 缺点 |
|---|---|---|---|
| 数字ID | 将物品ID(如1001)分割成多个数字Token序列。 | 实现简单,资源消耗低。 顺序索引可捕捉共现关系。 | 缺乏语义信息,难以利用大模型的世界知识。冷启动问题严重。 |
| 文本元数据 | 直接使用物品的标题、描述等文本作为标识符。 | 富含语义,能充分利用大模型的知识。可解释性强。 | 文本过长导致生成计算成本高、匹配困难。存在语义模糊性(如“苹果”指水果还是公司?)。 |
| 语义ID | 通过模型(如RQ-VAE)将物品的语义向量离散化成一个短的Token序列。 | 兼顾语义与区分度:相似物品有相似ID前缀。长度可控,生成效率高。解决了数字ID和纯文本的多数缺点。 | 构建流程更复杂,需要额外的模型训练。 |
语义ID是目前最主流和前景最好的方法,它旨在为每个物品创建一个“语义指纹”,在保留语义信息的同时,控制了生成难度。
2. 模型输入表示
目标:构建一个能充分描述推荐任务的提示词(Prompt),作为生成模型的输入。输入通常包含三部分:
3. 模型训练
目标:训练模型能够根据输入的用户信息,准确地生成下一个物品的标识符。
物品文本 → 语义ID语义ID → 物品文本用户历史 → 物品文本4. 模型推理
目标:使用训练好的模型,为给定用户生成最终的推荐物品列表。
| 方式 | 过程 | 问题 |
|---|---|---|
| 自由生成 | 模型在整个词表中自由生成Token序列。 | 可能生成无效ID(即数据集中不存在的物品标识符)。 |
| 受限生成 | 通过前缀树等技术,限制模型只在有效的物品ID词表中进行生成。 | 能保证生成的ID有效,是更可靠的推理方式。 |
1、 核心目标:解决传统推荐系统的根本性痛点
抖音面对的业务环境极其复杂:亿级日增内容、多体裁(视频/图文/直播/商品)、严格的低延迟要求。传统级联推荐架构(召回->粗排->精排->重排)在此背景下暴露出四大核心痛点:
2、 核心战略:渐进式一体化
抖音没有采取激进的彻底重构,而是选择了风险可控的渐进式路径:
3、 关键技术突破与创新
为支撑这一宏大的架构演进,在多个技术层面实现了突破:
| 技术领域 | 核心创新 | 达成的效果 |
|---|---|---|
| 数据与样本 | List-wise样本组织:将一组候选物品作为一条样本,替代传统的Point-wise方式。 | 样本量压缩30倍 I/O带宽降低90%+ 日节省成本达数十万 |
| 序列建模 | 超长序列建模:结合动作采样、Sparse Attention等技术,支持10万+ 长度的用户行为序列。 | 用户序列建模能力提升近5倍 AUC提升0.3%+ |
| 训练效率 | 训练长度压缩:通过数据分布优化(如贝塔分布),将训练序列长度压缩至推理的10%以内。 | 训练成本压缩10倍,效果接近无损 训练吞吐提升800%+ |
| Kernel优化 | 自研HSTU Attention:性能优于Triton,支持多种Attention模式,为推理提供Page Attention支持。 | 极致优化计算性能,支撑大规模部署 |
| LLM融合 | 特征文本化:将用户属性与行为序列转化为文本,利用LLM进行next item预测和视频图谱生成。 | 开源VLM/LLM已打平基线,为自然语言交互推荐奠定基础 |
4、 架构演进:走向“粗精召一体化”
在一体化方向上,取得了实质性进展:
5、 业务价值与收益
6、 总结与展望
挚文集团的实践提供了一个从工程架构视角审视推荐系统演进的绝佳案例,其核心路径是 “先工程化、再平台化、后智能化” 。
1、 演进全景:从“草莽时代”到“生成式时代”
2、 大模型在推荐场景中的探索与应用
挚文集团的策略非常务实:不追求颠覆式重构,而是将大模型作为强大的“能力组件”嵌入现有成熟平台。
3、 实践经验总结
总结
挚文集团的探索表明,大模型在推荐系统中的应用不一定是颠覆性的“生成式推荐”,也可以是渐进式的 “增强式推荐” 。其成功关键在于:先通过平台化建设打好数据和工程的坚实基础,再将大模型作为一颗强大的“芯片”嵌入其中,从而在保障系统稳定性和团队效率的同时,实现了推荐效果的智能化升级。
1、 核心目标:解决传统推荐的“语义理解”瓶颈
抖音推荐系统面临的核心挑战是传统模型(尤其是双塔架构)过度依赖协同过滤数据,而缺乏深度的语义理解能力。这导致了:
技术根源:传统的双塔模型为了追求推理效率,在模型底层就进行了内容与用户侧的分离,导致深层的语义融合与理解能力不足。
2、 核心技术解决方案:SAIL-Embedding
SAIL-Embedding是抖音(字节跳动)自研的一种基于大模型的全模态统一嵌入技术。它的核心目标是替代传统的“双塔模型”,为推荐系统提供一个能够深度理解视频、音频、文本等全模态内容语义的通用向量表示基座
| 特性 | 传统双塔架构 | SAIL-Embedding (LLM融合架构) |
|---|---|---|
| 核心原理 | 内容塔和用户塔分开编码,最后进行浅层交互(如点积)。 | 使用LLM作为骨干网络,对视频、音频、文本等全模态信息进行深度融合与编码。 |
| 优势 | 推理效率高,结果可缓存。 | 深层语义理解能力强,能捕捉复杂的跨模态关联。 |
| 劣势 | 语义融合浅,存在信息损失,性能有天花板。 | 计算成本相对较高。 |
SAIL-Embedding的技术创新点:
3、 在推荐场景中的应用与价值
SAIL-Embedding生成的强大向量,作为一种基础能力被注入到推荐系统的多个环节:
4、 业务效果与成果
通过线上A/B测试验证,SAIL-Embedding带来了全面的业务提升:
总结与展望
在推荐系统中,对内容本身的深度理解与对用户行为的协同过滤同样重要。通过构建一个强大的多模态内容理解基座,并将其作为基础能力赋能整个推荐链路,能够从根本上提升推荐的准确性、相关性和用户体验。
将继续优化大模型性能,并探索与生成式大模型(LLM)的深度融合,最终为实现可解释、可对话的下一代智能推荐系统奠定坚实的基础。
这是一种全新的交互理念,其核心突破在于:
直接使用超大模型(如GPT-4)成本高昂。RecBot采用知识蒸馏技术进行优化:
用户体验提升: 负面反馈频率下降:0.71%、暴露商品类别多样性提升:0.88%、点击商品类别多样性提升:1.44%
商业价值体现: 页面浏览量提升:0.56%、加购物车率提升:1.28%、总商品交易额(GMV)提升:1.40%
OneRec采用编码器-解码器架构(如下图),将推荐问题转化为序列生成任务,在训练过程中使用NTP (Next Token Prediction) 损失函数优化。
OneRec的成功建立在三个关键技术创新之上:
1. 生成式模型架构:编码器-解码器与语义分词器
2. 基于强化学习的偏好对齐:突破传统系统天花板
预训练模型只能拟合历史推荐系统的分布,无法实现超越。OneRec引入多奖励强化学习框架来直接对齐用户偏好:
3. 极致的性能优化:达到LLM级别的算力效率
OneRec通过架构革新和系统深度优化,大幅提升了算力利用率:
在OneRec的基础上,快手进一步提出OneRec-Think,旨在将大模型的思维链推理能力引入推荐系统,使推荐过程更精准、可解释。
推理序列 → 语义ID预测T(如用户当前可能的心情或意图),然后联合原始序列和思考T来共同预测下一个物品。即P(iₜ₊₁ | S, T)和P(T | S)。这使得推荐决策过程变得透明且可控。京东联盟广告业务的核心需求是:在保持点击率(UCTR)不下降的前提下,显著提升转化率(UCVR)。为此,团队探索了基于生成式推荐大模型和直接偏好优化(DPO)对齐范式的解决方案。
生成式推荐进行多目标优化:
为了利用大模型进行端到端的推荐,京东构建了一套完整的流程:
在基础模型之上,核心工作是如何让模型在推荐时不仅考虑“用户可能点击什么”,更要考虑“用户可能购买什么”。
DPO是一种直接利用偏好数据(如“回答A优于回答B”)来微调大模型、使其输出更符合人类喜好的方法,无需训练复杂的奖励模型。
a) 数据构造策略与离线实验
团队构建三种不同的正负样本对进行DPO训练,离线实验结果(Hit@1指标,与未对齐模型的绝对差值)如下
| 数据构造方案 | 点击测试集 Hit@1 | 转化测试集 Hit@1 |
|---|---|---|
| <下单商品,点击未下单商品> | -0.0017 | +0.0528 |
| <下单商品,曝光未点击商品> | -0.0076 | +0.0795 |
| <下单商品,曝光未下单商品> | -0.0054 | +0.0477 |
结论:所有方案都能在转化指标上带来显著提升,同时在点击指标上仅有轻微下降。其中, <下单商品,曝光未点击商品> 的组合在转化指标上提升最明显。
b) 目标函数的高级优化
为了进一步提升效果,团队尝试了两种DPO的变体:
最终结论:尽管高级变体效果不一,但基础的DPO方法相较于未对齐模型,在转化指标上有非常明显提升。
将经过DPO对齐的模型进行线上A/B测试,结果验证了其有效性:
| 指标 | 对齐模型 vs. 未对齐模型 |
|---|---|
| UCTR(点击率) | +0.6% (轻微提升) |
| UCVR(转化率) | +8.0% (显著提升) |
实验结果完全达到了 “保UCTR,升UCVR” 的业务目标,显著提升了广告转化率。
核心工作主要围绕两大方向展开:利用大模型增强传统推荐模型和直接使用大模型进行排序。
一、 核心应用方向
二、 关键技术突破与优化
总结:
| 公司/机构 | 项目/系统名称 | 核心特点/突破 | 应用效果/目标 |
|---|---|---|---|
| 抖音 | 下一代生成式推荐系统 | 1.渐进式一体化:从精排切入,合并召回、粗排、重排 2.关键技术突破: List-wise样本组织(样本压缩30倍) 超长序列建模(10万+长度) 训练长度压缩(成本降10倍) 3.粗精召一体化:多目标召回Head + RL对齐 | 用户体验: 停留时长+0.07% 推荐相关性提升6% 技术指标: Seq2item R@1提升至9.04%(+108%) 存储成本降85%,训练成本降60% |
| 挚文集团 | 生成式推荐进阶 | 1.平台化演进路径:草莽时代→中台时代→生成式时代 2.工程架构先行:推荐数据库统一、DSL工作流 3.LLM-as-Feature-Enhancer:将大模型作为能力组件嵌入平台 4.多场景应用:召回、排序、重排全链路增强 | 效率提升: 团队从20人优化至4-5人 工程师效率提升5倍+ 特征对齐从周级到一次性通过 业务价值:实现智能化升级,构建技术护城河 |
| 抖音 | SAIL-Embedding | 1.全模态统一嵌入:替代传统双塔架构 2.超大规模训练:100亿+样本,覆盖三大任务 3.先进训练技巧:动态难负例挖掘、自适应数据平衡 4.解耦优化策略:内容侧性能损失控制在2%以内 | 核心指标: Seq2item R@1提升至9.04%(+108%) 推荐相关性平均提升6% 线上收益: 抖音精选LT7 +0.4% Feed Rank AUC +0.1% 冷启动LT30 +0.05% |
| 阿里巴巴 & 中国人民大学 | RecBot 聊天式推荐系统 | 1.交互式推荐信息流 2.双智能体架构: Parser Agent:解析用户指令。 Planner Agent:规划并执行推荐策略。 3.知识蒸馏优化 | 离线:Recall@10达0.2459,是传统方法25倍。 在线: UCVR: +8.0% UCTR: +0.6% GMV: +1.40% 负面反馈下降0.71% |
| 快手 (Kuaishou) | OneRec-Think | 1.生成式架构:Encoder-Decoder + 语义分词器。 2.多奖励RL偏好对齐(偏好、格式、工业场景奖励)。 3.极致性能优化(训练/推理MFU >23%)。 4.OneRec-Think三阶段:语义对齐、推理激活、推理增强。 | OneRec在线: 停留时长:主站 +0.54% ,极速版 +1.24% LT7增长:主站 +0.05% ,极速版 +0.08% 成本降至传统方案10.6% OneRec-Think在线: 停留时长 +0.159% |
| 京东联盟广告 | 生成式推荐与DPO优化 | 1.生成式基础架构(语义ID + 序列建模)。 2.DPO偏好对齐:构建(正例,负例)数据对,微调模型以优化UCVR。 | 在线: UCVR: +8.0% UCTR: +0.6% 完全达成“保UCTR,升UCVR”目标。 |
| 华为 | 大模型增强传统推荐 | 1.KAR框架:利用大模型生成开放域知识,增强特征。 2.LLM for Ranking:解决长序列理解难题。 3.解码加速:“个性化检索池+模糊校验”。 4.协同-语义联合优化。 | 应用场景:已在华为音乐、应用市场等场景上线。 效果:带来显著AUC提升;解码加速3-5倍。 |
| 淘宝天猫 | 生成式AI全面落地 | 大模型重构搜索推荐引擎,理解复杂语义 | 推荐场景点击率获得双位数增长 |
总的来说有三种探索范式:
1、LLM Embeddings + RS
将大型语言模型(LLM)作为特征抽取器,输入用户(User)或物品(Item)的特征,LLM输出对应特征的嵌入向量(Embedding)。推荐系统(RS)随后利用这些Embedding进行推荐。
生产应用(Production Use): 主要在离线环境下预先生成Embedding,例如为物品的文本描述或图像生成Embedding。
2、LLM Tokens + RS
向LLM输入用户和物品的特征,LLM生成蕴含潜在偏好信息的特定标识符(Token)。推荐系统则基于这些Token执行推荐任务。
生产应用(Production Use): 在离线阶段预生成Token(也可称作标签,Tag),用于推荐系统的标签到物品(tag2item)召回策略或作为模型输入特征。
3、LLM as RS
直接将LLM作为推荐系统核心。输入包括用户偏好、用户历史行为以及明确的任务指令(Instruction),由LLM生成最终的推荐结果列表。
| 技术方向 | 核心思想 | 关键技术 | 优势 | 挑战 |
|---|---|---|---|---|
| 大模型作为知识增强器 | 不直接推荐,而是发挥世界知识和跨域推理能力, | 通过上下文学习,让大模型对用户历史和行为物品进行“总结”,然后将这些文本作为额外特征输入给下游的传统推荐模型。 | • 效果显著 • 保持传统模型高效推理 • 风险低,落地快 | • 依赖传统模型性能 • 特征对齐复杂度高 |
| 端到端生成式模型 | 单一生成式模型替代多级流水线,根据用户上下文生成候选物品ID。 | • 语义ID离散化(RQ-VAE) • 受限解码 • 序列到序列模型架构 | • 避免级联损失 • 端到端优化 • 长尾物品覆盖好 | • 超大规模物品库处理 • 生成延迟控制 • ID有效性保证 |
| 生成式智能体与对话推荐 | 具备长期记忆和工具调用能力的推荐智能体,动态理解并满足其需求 | • ReAct/Plan-and-Execute框架 • 工具学习 • 对话状态管理 | • 动态理解用户需求 • 多轮交互优化 • 用户体验好 | • 意图理解复杂 • 系统交互可靠性 • 计算成本高 |
| 推荐场景专用大模型 | 设计一个两阶段框架,明确划分不同模型的职责,三空间框架明确划分职责 | • 语言空间:大模型从纯语义角度理解用户序列,负责召回。• 推荐空间:从推荐角度理解序列,聚焦与推荐相关的信息,负责召回。• 物品空间:融合协同过滤等统计信息,对候选物品进行快速、精准的打分排序。 | • 各方优势充分发挥 • Few-shot表现优异 • 效果与效率平衡 | • 架构设计复杂 • 多空间协同挑战 |
| 混合协同架构 | 生成式与判别式模型协同,充分发挥生成式模型的语义理解、推理能力与传统判别式模型的高效、精准优势。 | • LLM as Orchestrator:LLM作为中央控制器,规划并调用传统模型作为工具。• LLM as Enhancer:LLM不直接推荐,而是为传统模型生成增强特征(如知识注入、序列摘要) • 动态策略编排 | •语义理解、推理能力与效率精准兼顾 • 系统灵活性高 • 风险可控 | • 协同机制设计复杂 • 系统运维难度增加 |
生成式AI技术正驱动推荐系统经历一场深刻的范式革命,使其从静态的“过滤系统”演变为动态、交互且具备创造性的“内容发现与生成平台”。
参考文章: