RTB 广告竞价策略

RTB 广告流程

img

竞价策略

广告主在收到竞价请求后,会根据竞价规则,一般是 CPM 或者 CPC,进行出价。

固定出价

对所有广告请求,出价为固定值。

随机出价

在一定范围内,随机出价。

受限 CPA 出价

eCPM=pCTR×pCVR×1000×CPAeCPM = pCTR \times pCVR \times 1000 \times CPA

其中 CPM 是广告千次曝光价格,CPA 是每次转化成本,CTR 是广告转化率。对于每个竞价请

受限 CPC 出价

eCPM=pCTR×pCVR×1000×mCPCeCPM = pCTR \times pCVR \times 1000 \times mCPC

在 CPC 模式下,广告主会设定最高点击成本 mCPC,可用上述公式出价。

线性出价

eCPM=a×pCTR×pCVR+beCPM = a \times pCTR \times pCVR + b

美团DSP竞价策略实战

非线性出价

《Optimal real-time bidding for display advertising SIGKDD14》PDF

《Optimal Real-Time Bidding Frameworks Discussion》PDF

eCPM=λcθ+c2ceCPM = \sqrt{\frac{\lambda}{c} \theta + c^2 } - c

出价模型是预算有限的情况下最大化收益,优化目标为

b()ORTB=argmaxb()NTxθ(x)w(b(θ(x)))px(x)dxb()_{ORTB} =\arg \max_{b()} N_T \int_{x}\theta(x) w(b(\theta(x))) p_x(x) dx

s.t.NTxb(θ(x))w(b(θ(x)))px(x)dxBs.t. N_T \int_{x} b(\theta(x)) w(b(\theta(x))) p_x(x) dx \le B

其中假设某个广告在排期 TT 内总共符合其定向的广告请求共 NTN_T 个,每个广告请求特征 xx,满足定向条件的 xx 先验为 px(x)p_x(x)。给定收益函数 θ(x)\theta(x),如 pCTR,竞价函数 b(θ(x))b(\theta(x)),竞价成功率函数 w(b(θ(x)))w(b(\theta(x))),广告预算 BB

因为 xxθ(x)\theta(x) 的关系是确定的,那么他们概率密度函数也是确定的

pθ(θ(x))=px(x)θ(x)p_\theta(\theta(\mathbb{x}))=\frac{p_x(\mathbb{x})}{||\nabla\theta(\mathbb{x})||}

优化目标代入上式,有

b()ORTB=argmaxb()NTθθw(b(θ))pθ(θ)dθb()_{ORTB} ={\arg\max}_{b()} N_T \int_\theta\theta w(b(\theta))p_\theta(\theta)d\theta

s.t.NTθb(θ)w(b(θ))pθ(θ)dθBs.t. N_T \int_\theta b(\theta)w(b(\theta))p_\theta(\theta)d\theta \le B

拉格朗日目标函数为

L(b(θ),λ)=θθw(b(θ))pθ(θ)dθλθb(θ)w(b(θ))pθ(θ)dθ+λBNT\mathcal{L}(b(\theta), \lambda) = \int_\theta \theta w(b(\theta))p_\theta(\theta)d\theta - \lambda \int_\theta b(\theta)w(b(\theta))p_\theta(\theta)d\theta + \frac{\lambda B}{N_T}

其中 λ\lambda 是拉格朗日乘子。

由变分法(calculus of variations),b(θ)b(\theta) 的欧拉-拉格朗日条件为

θpθ(θ)w(b(θ))b(θ)λpθ(θ)[w(b(θ))+b(θ)w(b(θ))b(θ)]=0\theta p_\theta(\theta) \frac{\partial w(b(\theta))}{\partial b(\theta)} - \lambda p_\theta(\theta)\big[ w(b(\theta)) + b(\theta) \frac{\partial w(b(\theta))}{\partial b(\theta)} \big]=0

λw(b(θ))=[θλb(θ)]w(b(θ))b(θ)\lambda w(b(\theta)) = \big[\theta - \lambda b(\theta)\big]\frac{\partial w(b(\theta))}{\partial b(\theta)}

根据 iPinYou 现实数据集,拟合出 wwb(θ)b(\theta) 的函数关系,并求导

w(b(θ))=b(θ)c+b(θ)w(b(\theta))=\frac{b(\theta)}{c+b(\theta)}

w(b(θ))b(θ)=cc+b(θ)2\frac{\partial w(b(\theta))}{\partial b(\theta)}=\frac{c}{c+b(\theta)^2}

代入欧拉-拉格朗日条件公式,得到

bORTB1(θ)=cλθ+c2cb_{ORTB1}(\theta)=\sqrt{\frac{c}{\lambda}\theta + c^2}-c

PID 策略

对成本受限的 oCPC 竞价,引入 PID 调价因子 λ\lambda ,改变出价:

eCPM=1000×pCTR×(CPC+λ)eCPM = 1000 \times pCTR \times (CPC + \lambda)

间隔一小时,误差定义

errort=targetCPCtrealCPCterror_t = targetCPC_t - realCPC_t

PID 公式

λt+1=λt+Kperrort+KIierrori+KD(errorterrort1)\lambda_{t+1} = \lambda_t + K_p error_t + K_I \sum_i error_i + K_D (error_t - error_{t-1})

其中 KPK_P 为比例系数(当前误差情况),KIK_I 是积分系数(解决稳态误差,去误差累计),KDK_D 是微分系数(未来误差预测)。三者依靠经验值调整。

优点是泛化性好,缺点时无法对上下文特征利用不完全。

https://mp.weixin.qq.com/s/xX8eGjmQqeQptyX9KOtOwQ

强化学习免模型策略:DQN

《Budget Constrained Bidding by Model-free Reinforcement Learning in Display Advertising CIKM18》PDF

问题:二价竞得机制,目标最大化广告曝光,约束预算受限

MDP 建模,并提出强化学习模型求解。

赏函数设计:原有设计——一段时间内竞得数,即广告曝光数,为了增加奖赏,action 会降低 λ\lambda 使得出价更激进,提前耗尽预算;新设计——增加预算限制建模,

参考问题:Resource-constrained RL Problems,如 Gold Miner 游戏

算法:Deep Reinforcement Learning to Bid

  1. DQN 框架,维护 Q(s, a) 值函数,利用经验回放学习,其中 a 是出价系数 λ\lambda,s 是状态,r 由 RewardNet(s, a) 估算
  2. adaptive ϵ\epsilon-greedy 选择 action
  3. RewardNet 通过经验回放估算 reward

MoTiAC

《MoTiAC: Multi-Objective Actor-Critics for Real-Time Bidding 2020》 腾讯广告 PDF

《Reinforcement Learning with Sequential Information Clustering in Real-Time Bidding CIKM19》PDF

附录

约束最优化问题求解:拉格朗日乘子法

假设 f(x),gi(x),hj(x)f(x), g_i(x), h_j(x) 是定义在 Rn\mathbb R^n 上的连续可微函数,定义不等式约束最优化问题为

minxRn f(x)s.t. gi(x)0hj(x)=0\begin{aligned} \min_{x\in\mathbb R^n}\ &f(x)\\ s.t.\ &g_i(x) \le 0 \\ &h_j(x) = 0 \end{aligned}

引入拉格朗日乘子 αi,βi\alpha_i, \beta_iαi0\alpha_i \ge 0,定义拉格朗日函数为

L(x,α,β)=f(x)+iαigi(x)+jβjhj(x)L(x,\alpha,\beta)=f(x)+\sum_i \alpha_i g_i(x) + \sum_j \beta_j h_j(x)

K.K.T. 条件,即 xx 是函数 LL 的最优值必定满足下面条件

Lx=0h(x)=0g(x)0αigi(x)=0αi0\begin{aligned} \frac{\partial L}{\partial x} &= 0 \\ h(x) &= 0\\ g(x) &\le 0\\ \alpha_i g_i(x) &= 0\\ \alpha_i &\ge 0 \end{aligned}

参考

http://tech.youmi.net/2016/06/158883267.html

http://wnzhang.net/papers/ortb-kdd.pdf

https://zhuanlan.zhihu.com/p/55798676

https://zhuanlan.zhihu.com/p/38163970

https://zhuanlan.zhihu.com/p/26514613

本文有帮助?