常见于在线 pCTR pCVR 预估任务,挑战:窗口期正样本少;窗口期负样本会延迟转化;时间窗口过大影响在线指标。
在线学习算法篇(一) 样本延迟反馈 KM
CVR 预估中的转化延迟反馈问题概述 知乎
最近发表
《Dual Learning Algorithm for Delayed Conversions 2020》
用两个模型:CVR 预测模型和 + CVR Bias 预测模型;提出 a dual learning algorithm,在已观测的数据集上,交替训练这两个模型。
注:用合成数据集评估效果,无在线效果对比。
《Addressing Delayed Feedback for Continuous Training with Neural Networks in CTR prediction RecSys19》
在 LR 和 W&D模型基础上,比较 5 种 loss:LogLoss / DelayedFeebackLoss 加入延迟反馈信息 / PULoss 未标记样本作为负样本 / FNWeighted / FNCalibration 的 CE / RCE / PR-AUC 指标,其中 FNCali 较好。
Twitter 提出 PDF,旨在解决深度 CTR 模型中,训练样本时间窗口延时很小(推特 pCTR 需要小于 5min 达到近实时)导致 FN 样本干扰的问题,在 Wide&Deep 模型损失函数的基础上:
对比 5 个 损失函数的效果:
-
Log Loss
-
Fake Negative Weighted Loss
基于 importance sampling 推导,负样本在用户参与后立即用正标签复制到数据集。
假设
其中 b 是样本数据分布与真实数据分布的 bias,我们知道 ,因为所有样本标签初始化为 0。
损失函数是
其中 不参与梯度计算。
-
Fake Negative Calibration Loss
-
Positive Unlabeled Loss
推导见 overview
-
Delayed Feedback Loss
其中 d 是正例的曝光-点击时长,e 是负例曝光-至今时间, 是模型。
假设延迟转化概率服从指数分布
其中 是延时反馈模型参数, 是深度模型参数。
另一个数值稳定的版本是
通过延迟反馈大的样本辅助模型参数学习。
推导参考论文《Modeling Delayed Feedback in Display Advertising》
发现:在线性模型表现好的损失函数,在深度模型不一定好。
《A Nonparametric Delayed Feedback Model for Conversion Rate Prediction 2018》
PDF 认为延迟的反馈分布可能和广告/用户/上下文都有关系,因此对延迟反馈的时间建模成一个可以学习的模型,和下一篇文章的方式与 CVR 进行联合建模。
《Learning from Delayed Outcomes via Proxies with Applications to Recommender Systems, ICML19》 PDF 引入 proxy
《Modeling Delayed Feedback in Display Advertising SIGKDD14》
Criteo PDF 发表,提出了两步模型:pCVR 最终转化概率 & pCVR 最终转化所需时间,通过后者延迟大的数据辅助前者的学习。
文中分析了分别进行 pCTR CVR 模型的优势:pCTR 样本多,通过在线训练框架优化;pCVR 样本稀疏,延时反馈长达 30 天。在转化样本稀疏时,pCTR 更准便于优化 CPC。
定义 X 特征,Y 转化是否已发生,C 是否最终会转化,D 点击到转化的延时(不转化为 -1),E 自点击的流逝时间。
定义两个概率模型, 是否最终转化 和 ,线上使用前者(LR 模型,也可用其他):
其中 ,共有两个参数
Label 定义:1 最终转化;0 未观察到转化
训练样本:由转化样本 和未观察到转化样本 组成。
假设:给定 ,元组 与 独立,既
模型定义:对于转化样本有
对于未转化样本有
其中以上第二项 已定义,第一项定义为
综上,得到模型定义
模型训练:EM 方法
损失函数:
其中
Importance Sampling
是通过从一个数据分布的采样,估算另一个数据分布的采样的方法。
关于模型 和数据分布 ,交叉熵的定义是
在线采样有偏导致数据分布为 ,而我们无法从数据分布 中采样,通过恰当的 weighting scheme 我们能获得无偏估计:
其中 是 importance weight
此方法的挑战,是需要对 作出合理估计。
此方法广泛用于反事实分析(counterfactual analysis):微软 Bottou et. al. 在《Counterfactual reasoning and learning systems: The example of computational advertising JMLR13》 PDF 讨论了如何在计算广告应用此方法估算 counterfactual expectation。
例子:https://zhuanlan.zhihu.com/p/41217212
Inverse Propensity Weighting
《Moving towards best practice when using inverse probability of treatment weighting (IPTW) using the propensity score to estimate causal treatment effects in observational studies》PDF
在临床药理研究中,通常治疗组(Y = 1)的指派不是随机的,建模倾向分数(propensity score) ,即某个样本 x 被指派为治疗组的概率;然后通过逆倾向分数对样本加权。
在 pCTR 问题中,Y=1 表示点击样本。
此方法的挑战,是需要对倾向分数单独建模。
例子:https://en.wikipedia.org/wiki/Inverse_probability_weighting
Delayed Bandits
《Markov decision processes with delays and asynchronous cost collection》
《Stochastic Bandit Models for Delayed Conversions》
《Learning and planning in environments with delayed feedback》