RTB 广告流程
竞价策略
广告主在收到竞价请求后,会根据竞价规则,一般是 CPM 或者 CPC,进行出价。
固定出价
对所有广告请求,出价为固定值。
随机出价
在一定范围内,随机出价。
受限 CPA 出价
其中 CPM 是广告千次曝光价格,CPA 是每次转化成本,CTR 是广告转化率。对于每个竞价请
受限 CPC 出价
在 CPC 模式下,广告主会设定最高点击成本 mCPC,可用上述公式出价。
线性出价
非线性出价
《Optimal real-time bidding for display advertising SIGKDD14》PDF
《Optimal Real-Time Bidding Frameworks Discussion》PDF
出价模型是预算有限的情况下最大化收益,优化目标为
其中假设某个广告在排期 内总共符合其定向的广告请求共 个,每个广告请求特征 ,满足定向条件的 先验为 。给定收益函数 ,如 pCTR,竞价函数 ,竞价成功率函数 ,广告预算 。
因为 和 的关系是确定的,那么他们概率密度函数也是确定的
优化目标代入上式,有
拉格朗日目标函数为
其中 是拉格朗日乘子。
由变分法(calculus of variations), 的欧拉-拉格朗日条件为
根据 iPinYou 现实数据集,拟合出 与 的函数关系,并求导
代入欧拉-拉格朗日条件公式,得到
PID 策略
对成本受限的 oCPC 竞价,引入 PID 调价因子 ,改变出价:
间隔一小时,误差定义
PID 公式
其中 为比例系数(当前误差情况), 是积分系数(解决稳态误差,去误差累计), 是微分系数(未来误差预测)。三者依靠经验值调整。
优点是泛化性好,缺点时无法对上下文特征利用不完全。
https://mp.weixin.qq.com/s/xX8eGjmQqeQptyX9KOtOwQ
强化学习免模型策略:DQN
《Budget Constrained Bidding by Model-free Reinforcement Learning in Display Advertising CIKM18》PDF
问题:二价竞得机制,目标最大化广告曝光,约束预算受限
MDP 建模,并提出强化学习模型求解。
赏函数设计:原有设计——一段时间内竞得数,即广告曝光数,为了增加奖赏,action 会降低 使得出价更激进,提前耗尽预算;新设计——增加预算限制建模,
参考问题:Resource-constrained RL Problems,如 Gold Miner 游戏
算法:Deep Reinforcement Learning to Bid
- DQN 框架,维护 Q(s, a) 值函数,利用经验回放学习,其中 a 是出价系数 ,s 是状态,r 由 RewardNet(s, a) 估算
- adaptive -greedy 选择 action
- RewardNet 通过经验回放估算 reward
MoTiAC
《MoTiAC: Multi-Objective Actor-Critics for Real-Time Bidding 2020》 腾讯广告 PDF
《Reinforcement Learning with Sequential Information Clustering in Real-Time Bidding CIKM19》PDF
附录
约束最优化问题求解:拉格朗日乘子法
假设 是定义在 上的连续可微函数,定义不等式约束最优化问题为
引入拉格朗日乘子 且 ,定义拉格朗日函数为
K.K.T. 条件,即 是函数 的最优值必定满足下面条件
参考
http://tech.youmi.net/2016/06/158883267.html
http://wnzhang.net/papers/ortb-kdd.pdf
https://zhuanlan.zhihu.com/p/55798676