全球400多支团队参加,鹅厂是如何拿下冠军的
任务介绍
大型会话搜索数据集[1]
数据是主办方提供的搜索会话(Session)数据, 涉及到约3.8亿query及12亿的document。全数据经过脱敏处理,内容不具有可读性。Session数据中包含:1)记录了页面表现特征(文档媒体类型、文档展现高度和标题与摘要等)的候选文档列表 (通常少于10个);2)当前Session 下的用户行为特征(点击、停留时长和滑屏次数等)。具体该数据集所记录的所有特征展现如下图所示:
Session数据的数据分析
专家标注数据集
表1-1 不同等级文档的数量以及所占比例
Pre-training for Web Search
预训练技术在深度学习中得到了广泛的运用。目前主流的预训练方式主要基于自然语言处理,学习给定语料中的语言建模能力,例如masking token prediction任务与next sentence prediction任务。然而这样的预训练并非与搜索排序相关,在预训练任务中引入搜索排序相关的任务使得模型更加贴近于下游任务成了搜索预训练研究中重要的课题。此任务中,参赛者需要在给定中大型搜索日志中进行搜索排序相关的预训练,并结合专家标注数据进行模型微调,产出一个有效地搜索排序模型。
Unbiased Learning to Rank
点击日志能提供大量的查询-文档相关性反馈,然而用户的点击信号通常存在很多噪音(bias),主要来源于诸如位置、展现形式、网页权威度、点击必要性等因素的影响。为了消除点击数据中潜在的噪音,无偏排序学习(Unbiased Learning to Rank,ULTR) 得到了广泛的研究。在此任务中,参赛者仅可利用大型搜索日志(不能使用专家标注数据),通过文章内容、展现特征、用户交互行为特征等因素进行无偏排序学习训练。
1.3 评测指标
Pre-training for Web Search
赛道解决方案
2.1 整体方案
图2-1 预训练赛道中的四阶段训练策略
阶段1——CTR任务预训练:
阶段2——基于用户行为特征进行去噪预训练:
阶段3——专家标注数据微调:
阶段4——集成学习:
表2-1:额外引入的排序学习特征
2.2 实验结果
表2-2:预训练BERT模型的效果
图2-2:集成学习中各种特征的重要性分数
我们列出了每个预训练BERT模型的效果与集成学习中的特征重要性分数,可以发现使用大模型(BERT-24层)能比BERT-12层有效地提升排序效果;同时,基于用户行为特征的debiased pre-training model能有效地减少点击噪声的影响,进而提升最终排序效果。
Unbiased Learning for Web Search
赛道解决方案
3.1 整体方案
如图 3-1(a) 所示,业界[3,4]常采用基于 Position-based Model(PBM)[2]假设的方法对训练 unbias learning to rank (ULTR) 模型。PBM的基本假设是:
换言之,PBM 认为 document (文档,以下简称doc) 只有在该 doc 被用户检验并且它与用户输入的 query 相关时才会被点击。如图3-1(a) 所示,大多数 PBM-based 方法在预测检验偏置项时,只考虑了位置信息。即,这些方法认为 doc 被用户检验的概率只与它排序的位置 (position) 有关 (排名靠前则更容易被用户看到)。然而,用户检验 doc 的步骤通常可以分为两步:
首先用户需要能够观察到该文档;
在观察到文档的基础上用户根据doc的表现形式来感知 query 与 doc 之间的相关性,如果用户觉得相关的话,就会进行点击。
在第一步中,doc 的排序位置确实对用户能否观察到该 doc 造成极大影响。但是在用户感知 doc 相关性时,位置的影响微乎其微,而包括 doc 的媒体类型(media type,以下简称mType)、doc 在搜索页面的展示高度 (以下简称serpH) 以及 doc 摘要中的 term 命中 query 中关键 term 的次数等 doc 在表现形式上的差异都对用户感知 doc 相关性造成关键性的影响。
因此我们提出了一种用于去除检验偏置 (包含感知偏置在内) 的多特征集成模型。模型的总体框架如图3-1 (b) 所示,它与图 3-1 (a) 有三个不同之处:
在 examination-bias model 中除了依赖于位置偏置之外。我们还可以集成包括 mType、serpH、slipoff count (点击后用户的滑屏次数)。其中,mType 与 serpH 代表着显式的文档表示形式差异特征对检验偏置中用户感知偏置的影响。这些显式的特征在实际应用中需要根据搜索场景的不同而进行调整。而 slipoff count 则表示隐式的用户反馈特征。由于当用户因为感知错误而点进对应 doc 时,他很快能根据文档的内容判断 doc 的不相关性,一般也就不会进行滑屏而直接退出文档。因此,加入用户的隐式反馈作为 examination-bias model 估算检验偏置的依据是十分有必要的。同时,这种隐式反馈特征可以在任何搜索场景估算检验偏置时适用;
由于在 examination-bias model 中集成了多种特征,所以我们适当的增加了它全连接层的深度(1层 --> 5层)。此外,BatchNorm (BN) 的引入对于加速模型的收敛起到了至关重要的作用;
相比于图 3-1(a),我们还引入了一个实用的 trick ,即 Group Selection Layer,它等价于Pre-training 赛道所使用的 group-wise 预训练方式,在本次任务中起到了很好的效果。
除以上三点之外,relevance model 侧使用 pre-training 任务中预训练的模型参数作为热启动也是一个关键点。如果不做热启动, examination-bias model 和 relevance model 的初始预测值都比较差,极大地加大了模型初始的训练难度,并且两侧模型存在相互误导的风险。实验中,做热启动与否的 DCG@10 相差 0.8 左右,并且不做热启动的模型收敛时间是做了热启动的模型的三倍。
3.2 实验结果
如表 3-1 所示,我们测试了不同特征组合下,模型的性能变化。可以观察到在位置特征的基础上,引入 doc 的表现形式特征以及用户行为特征能够在 PBM-based 模型的基础上有效的提升模型的性能。
此外,如表 3-2 所示,我们还测试了不同超参数设置下,模型性能的变化趋势。经过参数搜索,在当前任务中,将 examination-bias model 的层数设置为 5 层,同时将 group size 参数设置为 6 时,模型性能最佳。
表3-2 不同超参数下,模型的性能变化(L代表层数,G代表训练组大小)
总结与展望
4.1 Pre-training for Web Search
点击日志是预训练搜索排序任务的宝贵资源, 在该任务中我们总结了以下方法可以有效地提升排序效果:
Group-wise CTR prediction任务比Point-wise CTR prediction任务更好地提升排序效果。
Whole word masking在中文任务上能进一步提升语言建模能力。
通过用户行为特征对点击数据进行清洗过滤,可以使得模型学习到更为可靠的相关性关系,进而提升模型效果。
使用大模型在cross-encoder的结构上,能有效地提升相关性排序效果。
4.2
Unbiased Learning to Rank
在该任务中我们重点探索了以下两点:
提出了一个能够借助更多上下文特征(用户行为特征与文档表现形式特征) 的多特征集成框架以更好的对点击数据进行去偏,验证了多种不同类特征在提升模型去偏能力上的效果。
工作过程中发现,并不是加入越多的去偏特征模型的性能就会越好,特征过多反而会导致模型学习的难度变大、收敛更慢。实际应用中,需要通过实验合理地选择特征、表征特征以进行标签去噪。
比赛链接:Unbiased Learning to Rank and Pre-training for Web Search