Temporal Click Model for Sponsored Search

Temporal Click Model for Sponsored Search

解决的问题:找出位置和周围广告质量是怎么样影响用户行为的。利用用户的点击广告的顺序数据,预测用户的点击行为,也就是预测用户可能按照那种顺序点击广告,

目的:是根据点击顺序的概率,可以计算出任意一个广告的概率。

一个广告的展示序列A<a1,a2>按照位置排序。点击序列:有5种可能的点击顺序,c1<,>; c2<a1,>; c3<a2,>; c4<a1,a2>; c5<a2;a1>按照点击时间排序。

背景:研究表明,在线广告中的外部因素(广告所在的位置,相邻广告的质量等)对用户的点击行为会有影响。

* 眼部跟踪实验,用户不偏好点击位置低的结果,即使低位是放的“最好”的结果。

* 收到位置影响,也受用户感知的广告质量结果的影响。

* 用户看到结果后是从上到下浏览,基于假设:只点击一次。无法解释多次点击的广告。以后的研究只是针对如何relaxing这个假设,1,依赖于已经点击过的广告继续点击;2,依赖于落地页质量的继续点击。

* 以上的几个都没考虑特定广告的吸引力(质量)或者与广告周围邻居的相关性。又有些结果考虑了广告之前的影响,结论是只被上面的影响不被下面的影响,这在搜索引擎中不合适。

* 有些提出了一些理性假设,用户首先比较广告质量再点击最好的那个,不是从高向低位置浏览的。但是只用来研究竞价机制。不适合用来做ctr预估。甚至没验证外部因素的影响。

* 所以,作者首先证明在搜索广告中确实存在外部因素,然后用个综合模型去解释位置和周围质量因素的影响。。

为了分析,在某个特定广告上相邻广告质量对用户点击行为的影响,作者做了实验:只收集了顶部和底部中只有2个广告的数据,这里用广告的历史ctr代表广告质量。将所有第一个位置的ctr相同的展示作为一组,并计算第二个位置上的ctr的均值。发现如下现象:

在north的两个相近位置上的广告,ctr的值并不是同时增加的,这表明,当广告质量很高时(>0.2)会对另外一个位置上的ctr产生负面影响。

另外在south的两个相邻位置上,ctr变化趋势是这样的:

clip_image001[4]

这说明,在广告质量都很低的时候,不会对另外一个位置的ctr产生负面影响(有积极作用???)。

以上表明广告质量会影响点击率。

另外验证是否广告的质量会影响用户首先点击哪个广告。结果发现:

clip_image002[4]

无论对于north还是south,随着广告质量增加,用户首先点击该广告的比例增加。

综上,高质量广告会对其它广告的ctr产生负面影响,而且会影响点击顺序。因此,作者认为点击序列的时序能用来研究对用户点击行为产生影响的外部因素。

基于数据的分析作者假定:用户看到返回的广告结果后,先examine每个广告并估计认为给出一个质量值,然后对比各个广告的质量。一般是按照先后顺序点击,除非用户觉得第二个广告的质量比第一个广告质量高很多。

生成过程:clip_image004[6]

所以作者提出一种时间序列的点击模型TCM,对于一个展示A=<a1,a2>,图模型如下:clip_image005[6]

首先用户看到结果A,然后根据位置信息和自己的判断哪个更好,然后再去点击这个广告。这里有个假设:在不懂的组合中,展示和点击的序列是互相独立的。

//A={A1,A2,…,AN}表示N种广告展示组合序列,每个Ai有1到M个广告,例如A1=<a1,a2>,C={C1,C2,…,CN}表示每种展示组合对应的点击组合序列。R={R1,R2,…,RM}表示用户自己估计的广告质量,U={U1,U2,…,UM}表示位置信息。//

对应于:用户是否关注返回的结果建模:clip_image006[6]

然后估计选哪一个:

clip_image007[6]

其中,用户估计的广告质量和位置信息由展示组合序列计算得到:clip_image008[6]

最后点击该广告的概率。

clip_image009[6]

以上只是点击某个组合中第i个广告的概率。

那么整个组合的概率计算是:

clip_image011[4]

由所有可能组合的概率,计算单个广告的点击率:clip_image013

这个方法与其它方法的不同之处:考虑了广告点击的顺序,这个是其它广告所没有考虑过的。并预测点击序列的概率,即可能先点哪个后点哪个。

最后作者做了2个实验,一个是自然搜索结果顶部广告数据;一个是自然搜索底部广告数据。数据中分别有30万(3%)和11万不同的query(5%),每个query分别有1亿和6.5亿个组合。这样的数据,可以直接通过统计做出很好的ctr预估,为了防止tcm模型的预测被这样的数据主导,就删除掉,只保留了频率小于1000次的query。

结论:无论是在NAD还是在SAD中,tcm模型的精度都很好,随着query频率增加,

clip_image014[4]

左边是顶部广告,右边是底部广告。这说明作者的假设是符合实际的。

不过随着query频率增加相比其它模型的优势在减少,

clip_image015

clip_image016[4]

原因:对于热搜的词,此时的假设“用户先估计质量分再对比确定点击哪个广告”的假设不成立,因为:用户更相信搜索的结果,因为用户可能认为搜索引擎是按照用户的反馈(点击次数)排序的。

clip_image017

Leave a Reply

Your email address will not be published. Required fields are marked *