行为感知与双通道对比学习：构建鲁棒异构序列推荐模型

发布时间：2026/6/21 13:06:53

1. 从“千人一面”到“千人千面”推荐系统的核心挑战与演进在信息爆炸的时代无论是刷短视频、逛电商平台还是阅读新闻我们早已习惯了被“猜你喜欢”的内容包围。这背后是推荐系统在默默工作。早期的推荐模型比如协同过滤更像是“人以群分”——喜欢A商品的人也喜欢B那我就把B推荐给你。这种方法简单有效但问题也很明显它严重依赖用户与物品的显式交互历史比如评分、购买对于新用户冷启动或者交互稀疏的用户效果大打折扣容易陷入“信息茧房”或推荐重复。于是序列推荐应运而生。它不再把用户的历史行为看作一个无序的集合而是一个有时序的序列。这更符合现实你刚买了网球拍接下来推荐网球鞋和运动袜远比推荐一个毫不相干的咖啡机要合理。基于Transformer的模型如BERT4Rec、SASRec在这一领域大放异彩它们能很好地捕捉序列中的长期依赖关系预测“下一个可能点击什么”。然而现实世界远比模型假设的复杂。一个用户在平台上的行为是异构的——他可能先“搜索”了“无线耳机”然后“浏览”了几款产品的详情页最后将其中一款“加入购物车”并在三天后完成“购买”。这里的“搜索”、“浏览”、“加购”、“购买”就是不同类型的交互行为它们共同构成了一个异构行为序列。传统的序列推荐模型通常将这些行为一视同仁或者简单地进行类型编码这无疑丢失了宝贵的信息。例如“购买”行为所蕴含的用户偏好强度显然远高于一次普通的“浏览”。如何让模型更精细地“感知”并利用这些不同行为背后的语义和强度差异是提升推荐精准度的关键。与此同时另一个棘手的问题是数据稀疏性。用户的行为序列长短不一大量用户只有寥寥几次交互。如何在有限的、稀疏的数据上学习到鲁棒且通用的用户表示防止模型过拟合是另一个重大挑战。近年来对比学习在自监督学习领域的成功为解决这一问题提供了新思路。其核心思想是通过构造“正样本对”同一用户序列的不同增强视图和“负样本对”不同用户的序列让模型学会拉近正样本、推远负样本从而学习到数据本身更本质的结构增强表示的判别力。正是在这样的背景下基于行为感知与双通道对比学习的异构序列推荐模型BDPL被提出。它瞄准的正是上述两个核心痛点一是如何深度建模异构行为序列中丰富的行为语义二是如何利用对比学习从稀疏数据中提炼更稳健的用户兴趣表示。这个模型不是为了取代Transformer而是在其强大的序列建模能力之上进行了一次重要的“精细化”和“鲁棒化”升级。接下来我将深入拆解BDPL的设计思想、核心架构以及它背后的“为什么”。2. BDPL模型核心架构双管齐下的设计哲学BDPL模型的名字已经揭示了它的两大核心武器行为感知Behavior-aware与双通道对比学习Dual-channel Contrastive Learning。它的整体目标非常明确给定一个用户的异构行为序列例如 [搜索“手机” 浏览A手机浏览B手机加购B手机]模型需要预测用户下一个最可能发生的行为如下单B手机。整个模型架构可以看作一个精心设计的流水线我们一步步来看。2.1 输入层与异构行为编码首先模型需要处理原始的异构序列。每个行为通常由两部分组成行为类型Behavior Type和交互的物品Item。例如点击商品ID_123。在BDPL中对这两部分信息进行了分别且精细的编码。对于物品我们使用一个可学习的物品嵌入表Item Embedding Lookup Table将每个物品ID映射为一个稠密的向量。这是推荐系统的标准操作。关键在于对行为类型的处理。传统方法可能只是给“点击”、“购买”等类型分配一个独立的ID然后进行嵌入或者简单地在物品向量上加一个类型偏置。BDPL采用了更“感知”的方式。它设计了一个行为感知编码器Behavior-aware Encoder。这个编码器的输入不仅仅是行为类型的ID还可能结合了该行为的先验统计信息例如全局数据中“购买”行为相对于“浏览”行为的转化率、平均停留时长等。通过一个小的神经网络将这些信息融合生成一个动态的、富含语义的行为类型嵌入Behavior Type Embedding。注意这里的行为感知编码其目的不是让模型记住“购买”这个词而是让模型理解“购买”这个动作所代表的用户偏好强度、决策确定性以及与其他行为的关联模式。例如模型应该能学到“购买”后的行为序列与“浏览”后的行为序列其未来的演化趋势是不同的。最终对于一个行为类型t 物品i其初始表示h_i由物品嵌入e_i和行为类型嵌入b_t通过一个融合函数如相加或拼接后过一层前馈网络得到h_i Fusion(e_i, b_t)。这样序列中的每个位置都获得了融合了具体物品信息和抽象行为语义的初始向量。2.2 序列建模主干捕捉动态兴趣演化获得了每个行为的增强表示后接下来需要建模整个序列的时序动态。BDPL通常采用Transformer编码器作为序列建模的主干网络这也是当前序列推荐的主流选择。将序列[h_1, h_2, ..., h_n]输入Transformer编码器。Transformer的自注意力机制Self-Attention能够计算序列中任意两个行为之间的关联权重。这对于推荐至关重要用户点击B商品可能是因为他20步之前搜索过相关关键词ATransformer能捕捉到这种长距离依赖。同时位置编码Positional Encoding确保了序列的顺序信息得以保留。经过多层Transformer块的处理后我们得到了序列中每个位置的上下文感知表示[h_1’, h_2’, ..., h_n’]。序列最后一个位置的输出h_n’通常被认为聚合了用户截至当前的全部历史兴趣被用作预测下一个物品的用户整体兴趣表示。2.3 行为感知的序列表示增强在获得Transformer输出的序列表示后BDPL并没有直接用它进行预测或对比学习而是引入了行为感知的增强模块。这个模块的核心思想是不同行为对定义用户当前兴趣状态的贡献度是不同的。具体来说模型会计算一个行为感知的注意力权重。这个权重基于两个因素1行为类型本身的语义重要性由之前的行为感知编码器提供先验2该行为在当前序列上下文中的实际重要性由Transformer输出动态计算。通过一个注意力网络为序列中每个位置的行为分配一个权重α_i。然后对Transformer的输出进行加权聚合u_global Σ (α_i * h_i’)。这里的u_global是一个行为感知的全局用户表示。它不同于简单的最后一个位置向量h_n’因为它显式地强调了重要行为如购买、长时间播放的贡献弱化了噪声行为如误点击、快速划过的影响。这个u_global将被用作后续对比学习的一个关键视图。2.4 双通道对比学习构建稳健兴趣表示的灵魂这是BDPL模型最具创新性的部分也是解决数据稀疏性、学习鲁棒表示的关键。所谓“双通道”是指模型同时从两个不同的视角对用户序列进行增强和对比从而学习到更全面、更稳健的表示。通道一序列级别的增强对比Sequence-level Augmentation Contrast这个通道关注用户整体兴趣的稳定性。其操作如下数据增强对原始的用户行为序列应用两种不同的、保持语义的增强操作生成两个增强视图。在推荐场景中常用的增强方法包括行为掩码Behavior Mask随机掩码掉序列中一小部分如15%的行为。这模拟了真实场景中部分行为记录缺失的情况迫使模型不依赖于某个特定行为而是从整体上下文进行推断。物品裁剪Item Crop随机截取原始序列的一个连续子序列如原序列的80%。这模拟了用户兴趣的阶段性要求模型从局部也能推断出用户的整体兴趣偏好。物品重排Item Reorder在局部范围内轻微打乱少数相邻物品的顺序。这增强了模型对行为顺序的鲁棒性因为有些行为的轻微顺序变化可能不影响核心兴趣。视图编码将这两个增强后的序列seq_aug1和seq_aug2分别通过之前提到的完整模型包含行为感知编码、Transformer、行为感知聚合得到两个全局用户表示u_aug1和u_aug2。对比损失在同一个批次Batch内u_aug1和u_aug2来自同一用户的原始序列构成一个正样本对。而u_aug1与本批次内其他任何用户的表示都构成负样本对。模型通过优化InfoNCE损失函数学习让正样本对的表示在向量空间中尽可能接近而与负样本对的表示尽可能远离。通道二物品级别的跨序列对比Item-level Cross-sequence Contrast这个通道关注用户对具体物品偏好的判别性。其操作如下锚点与正负样本构建从原始序列中选取一个“锚点”物品例如用户最后购买的那个商品。这个锚点物品经过模型编码后得到其丰富的表示v_anchor。正样本来自同一用户序列内的其他物品表示。这些物品与锚点物品共现于同一上下文很可能属于相似或互补的兴趣范畴。负样本来自同一批次内其他用户序列中的物品表示。对比损失同样使用对比损失让v_anchor与同用户的其他物品表示更接近与其他用户的物品表示更远离。双通道的协同作用序列级对比拉近了同一用户不同增强视图的距离让模型学会抓住用户兴趣中稳定、不变的核心部分对噪声和局部变化更鲁棒。这好比是认识一个人无论他是穿正装还是休闲服序列增强你都能认出他表示不变。物品级对比则拉近了同一用户兴趣范围内不同物品的距离同时推远了不同用户兴趣物品的距离让模型学习到的物品表示更具判别性能更好地区分用户的兴趣边界。这好比是不仅认出了这个人还清楚知道他喜欢看书而不是打球兴趣判别。最终BDPL的总体损失函数是主任务损失预测下一个物品的交叉熵损失与两个对比学习损失的加权和L_total L_main λ1 * L_seq_contrast λ2 * L_item_contrast。通过多任务联合训练模型同时优化了下一个物品预测的准确性、用户表示的鲁棒性和物品表示的判别性。3. 为什么是“行为感知”与“双通道”—— 设计决策深度剖析理解了BDPL做了什么之后我们更需要理解它为什么要这么设计。每一个技术选型的背后都是对现实业务问题深刻的洞察和权衡。3.1 行为感知的必要性从“信号强度”到“行为语义”在电商场景中用户从“搜索”到“浏览详情”再到“咨询客服”、“加入收藏”、“加入购物车”最后“支付”这一系列行为构成了一个决策漏斗。每个行为节点的“信号强度”和“用户意图”截然不同。“支付”是最终转化信号最强明确表达了用户的购买意愿和偏好。“加入购物车”是强购买意向但可能存在比价、凑单等后续操作。“浏览详情”表达了兴趣但兴趣浓度未知。“搜索”表达了主动需求但需求范围可能很宽。如果模型不加区分地对待这些行为相当于把强信号和弱信号等量齐观必然会稀释重要信号引入噪声。BDPL的行为感知编码本质上是为模型提供了一种先验知识让模型在建模伊始就“知道”不同行为的分量。这比让Transformer完全从数据中自己学习这种区分要高效、准确得多尤其是在数据稀疏时。它相当于在特征工程层面注入了一条重要的业务先验规则。3.2 双通道对比学习 vs 单通道更全面的表示学习对比学习在推荐中的应用已不新鲜但很多工作只采用序列级对比。BDPL引入双通道是基于对用户表示构成的多维度考量。用户兴趣是层次化的一个用户既有长期稳定的整体兴趣画像例如热衷数码产品也有短期动态的具体物品偏好例如本周想买某款特定型号的耳机。序列级对比学习主要服务于学习整体兴趣画像的稳定性而物品级对比学习则服务于学习具体偏好的判别性。两者互补缺一不可。缓解不同稀疏度下的问题对于行为序列很长的用户序列级对比学习效果显著能很好提炼其核心兴趣。但对于行为序列很短的用户序列级增强可能产生信息损失过大的视图此时物品级对比学习的作用就凸显出来——即使序列很短只要里面有少数几个物品模型也能通过物品级对比将这些物品与相似用户的物品关联或与其他用户的物品区分从而学到有用的表示。数据增强的针对性序列级增强如掩码、裁剪主要作用于序列结构考验模型的结构推理能力物品级对比则更关注表示空间中的语义距离考验模型的语义判别能力。双通道迫使模型同时具备这两种能力。3.3 Transformer作为主干的合理性注意力机制与序列推荐的天然契合为什么选择Transformer而不是RNN或CNN这源于用户行为序列的内在特性。长距离依赖用户当前的行为可能受到很久之前行为的影响例如年初收藏的旅游攻略年底才产生购买。RNN类模型存在梯度消失/爆炸问题难以有效捕捉长程依赖。Transformer的自注意力机制可以一步计算任意两个位置的关系完美解决了这个问题。并行计算效率Transformer的自注意力层和FFN层都可以完全并行化训练速度远快于必须顺序计算的RNN这对于海量用户行为数据的训练至关重要。灵活的位置编码通过正弦位置编码或可学习的位置编码Transformer既能利用序列的顺序信息又不像RNN那样对位置过于敏感对局部顺序噪声有一定的鲁棒性。BDPL在Transformer的基础上进行增强属于“站在巨人的肩膀上做精细化创新”而非重复造轮子这是一个非常务实且高效的技术选型。4. 实战中的关键细节与“避坑”指南理论很完美但将BDPL或类似思想应用于实际业务时会遇到一系列工程和算法上的挑战。以下是我结合经验总结的几个关键点和常见“坑”。4.1 行为感知编码的设计如何定义“行为”“行为”的粒度划分是第一个需要深思熟虑的问题。是粗粒度如点击、购买还是细粒度如点击标题、点击图片、滑动详情、评论点赞建议从业务目标出发。如果你的目标是提升GMV成交总额那么与转化链路强相关的行为搜索、加购、购买需要更细的划分和更高的权重。如果你的目标是提升留存和时长那么浏览、播放、互动等行为就更重要。一个实用的方法是进行行为重要性分析例如计算每种行为类型与最终目标如购买的转化率、共现频率等将其作为设计行为感知编码的输入特征之一。切忌拍脑袋定义最好结合数据分析。4.2 数据增强策略的选择与强度调参对比学习的效果极度依赖于数据增强的质量。在推荐序列上什么样的增强是“保持语义”的行为掩码掩码比例是关键超参数。通常建议在10%-25%之间尝试。比例太低增强效果不明显比例太高可能破坏序列核心语义让学习变得困难。可以尝试动态调整或在训练初期用较大比例后期逐渐减小。物品裁剪裁剪多长建议不要短于序列长度的50%以保证子序列仍能反映用户的部分核心兴趣。可以随机裁剪也可以尝试从序列头部、中部、尾部分别裁剪以增加多样性。一个常见的“坑”过度增强导致语义失真。例如对一个只有5次行为的序列进行50%的掩码可能只剩下2-3个行为其代表性大大降低。对于短序列应谨慎使用增强或降低增强强度。实操心得可以监控对比损失值如果对比损失一直很高且不下降可能是增强过强模型无法找到有效的不变性。4.3 双通道对比损失的权重平衡λ1, λ2总损失L_total L_main λ1 * L_seq_contrast λ2 * L_item_contrast中λ1和λ2的设定至关重要。它们控制了辅助任务对比学习对主任务推荐预测的影响程度。初始策略可以从较小的值开始如0.1观察验证集上主任务指标如RecallK, NDCG的变化。如果指标上升可以尝试缓慢增大如果指标下降则需减小。动态调整策略一种更高级的策略是采用退火权重。在训练初期数据稀疏性影响大可以给予对比损失较高的权重如λ0.5帮助模型快速学习到较好的初始表示。在训练中后期模型表示已经相对稳定可以逐渐降低对比损失的权重如线性衰减到0.1让模型更专注于优化主任务的预测精度。“坑”与排查如果λ设得过大模型可能会“沉迷”于优化对比损失即让表示更容易区分而忽略了序列本身的预测任务导致主任务指标变差。排查方法分别绘制主损失和两个对比损失在训练过程中的曲线。如果对比损失迅速下降而主损失居高不下或震荡很可能就是权重失衡。4.4 负样本的构建与采样策略对比学习的性能很大程度上取决于负样本的质量。在批次内随机采样其他用户的序列作为负样本是最常用的方法但仍有优化空间。“困难负样本”挖掘随机采样的负样本可能太“容易”区分例如一个喜欢母婴用品的用户和一个喜欢数码产品的用户。引入一些“困难负样本”例如同属于“服饰”大类但风格迥异的用户可以提升模型的判别边界。可以在向量空间中进行最近邻搜索选择与当前用户表示相似但非同一用户的样本作为困难负样本。批次大小的影响InfoNCE损失理论上批次越大负样本越多效果越好但对显存要求也越高。如果显存有限可以采用内存库Memory Bank或动量编码器Momentum Encoder等技术来维护一个大的负样本队列这是SimCLR和MoCo等经典工作采用的方法在BDPL的框架下也可以借鉴。实操注意在分布式训练中确保负样本采样是在全局批次Global Batch内进行而不是单个GPU的局部批次内以获取更丰富的负样本。5. 超越BDPL模型的应用、评估与未来延伸BDPL为我们提供了一个强大的框架但模型的价值最终体现在业务效果上。如何评估、部署并思考其下一步发展5.1 离线评估指标的选择除了通用的推荐指标如RecallK召回率、NDCGK归一化折损累计增益外对于BDPL这类引入了对比学习的模型还应关注一些表示学习相关的指标对齐性Alignment与均匀性Uniformity这是评估对比学习质量的理论指标。对齐性衡量正样本对之间的接近程度越小越好均匀性衡量表示在单位超球面上的分布均匀程度在一定范围内越大越好。可以通过计算这些指标来监控对比学习是否健康。聚类质量对学习到的用户表示进行聚类如K-Means计算轮廓系数Silhouette Score或Calinski-Harabasz指数。一个好的表示应该能让相似兴趣的用户聚在一起形成清晰的簇。长尾物品的覆盖度对比学习旨在学习更鲁棒的表示理论上应有利于对长尾物品交互少的物品的推荐。可以统计推荐列表中长尾物品出现的比例看是否有提升。5.2 在线A/B测试与业务指标对齐离线指标提升未必代表在线业务提升。必须进行严格的A/B测试。核心业务指标根据业务类型关注不同指标。电商关注点击率CTR、转化率CVR、人均订单金额、GMV内容平台关注播放时长、完播率、互动率、留存率。实验设计确保实验组使用BDPL和对照组使用基线模型如SASRec在其他条件流量、人群、UI上完全一致。实验周期要足够长以消除偶然波动。分析“为什么”如果在线指标提升可以进一步分析是哪个群体新用户/老用户、活跃用户/沉默用户受益更大对哪类物品热门/长尾的推荐更准确这能反向指导模型的迭代方向。5.3 部署考量与工程优化BDPL模型相比纯Transformer模型更复杂计算开销更大尤其是在线推理阶段。模型轻量化可以考虑对训练好的BDPL模型进行知识蒸馏将其能力迁移到一个更小的学生网络如轻量级Transformer或MLP中以提升在线推理速度。向量化检索用户兴趣表示u_global和物品表示都可以预先计算并存入向量数据库如Faiss, Milvus。在线服务时推荐过程转化为近邻搜索ANN问题极大提高效率。这是将深度模型落地到大规模推荐系统的标准做法。增量更新用户行为实时发生模型需要定期或实时更新。可以设计一个在线学习或近实时更新管道定期用新数据微调模型或更新用户/物品的向量表示。5.4 可能的演进方向BDPL本身已经是一个融合了多种先进思想的模型但技术总是在演进。基于当前的研究趋势和业务需求我认为有几个值得探索的方向多模态信息融合当前主要处理行为ID和类型。未来可以融合物品的文本描述、图像、视频封面等多模态信息使行为感知和物品表示更加丰富。例如“浏览”一个带有“极简风”文案和图片的商品与“浏览”一个“奢华炫酷”风格的商品其行为语义应有细微差别。跨域知识迁移用户可能在多个相关平台如短视频、电商、本地生活有行为。如何利用对比学习或迁移学习将在某个领域源域学习到的用户兴趣表示迁移到数据更稀疏的新领域目标域是一个具有巨大实用价值的方向。BDPL的双通道对比框架或许可以扩展为跨域对比。可解释性与可控性行为感知模块和注意力权重天然具有一定的可解释性。可以进一步可视化不同行为类型对最终推荐的贡献度让运营和产品同学理解模型的决策依据甚至在必要时进行人工干预和调整例如在促销季临时提高“加购”行为的权重。从我个人的实践经验来看BDPL这类模型代表了推荐系统从“粗放式”统计向“精细化”感知、从“依赖密集数据”向“利用稀疏数据”演进的重要一步。它的价值不在于提出了某个惊世骇俗的新结构而在于将行为感知、Transformer和对比学习这三个已被验证有效的技术以一种巧妙且合理的方式组合起来系统地解决了两个关键痛点。在实际部署中最大的挑战往往不是模型本身而是如何根据自身业务的数据特性对行为定义、增强策略、损失权重等“超参数”进行精细的调优和适配。这没有银弹需要算法工程师深入业务进行大量的实验分析和迭代。记住最先进的模型永远是那个最懂你数据的模型。

文章详情

行为感知与双通道对比学习：构建鲁棒异构序列推荐模型

相关新闻

最新新闻

日新闻

周新闻

月新闻