Large-scale behavioral targeting

    download:http://www.cc.gatech.edu/~zha/CSE8801/ad/p209-chen.pdf

    利用用户历史行为数据为用户选择合适的广告,目前最好的是线性泊松模型,通过用户行为数据预测ctr。Ctr的点击率提高了20%。可用的用户行为数据:点击,浏览,网页浏览,搜索词和搜索词点击。工业界BT的数据虽然很稀疏,但是数据量也都很大。如果要减少泛化误差,需要大量的数据。

BT不依赖于上下文信息(比如查询词,网页内容这些content),这使得BT也可以用于图片类型的广告(这些广告没有内容的)。BT主要是依赖隐式反馈。利用用户历史数据计算一个分数,超过一定的阈值就给用户展示广告,这个分数实际上就是ctr。

线性泊松回归。点击数符合泊松分布,y是观察到的点击数据,clip_image002是泊松分布的期望(lamda与y是什么关系?)clip_image003

用最大似然估计的方法做参数估计,求使得上式的对数最大的参数w,对p(y)求导:

clip_image004

求和符号,是因为所有训练数据的所有样本对应的p(y)求最大似然值。

对于关于参数w的迭代公式,可以使用梯度下降方法,也可以使用收敛更快的拟牛顿法,但是论文作者选择了另外一种方法(为什么选这个?好处是什么?):文献【11】中的方法,迭代公式是这样的: clip_image005

下面讲讲文献【11】,下载地址:http://hebb.mit.edu/people/seung/papers/nmfconverge.pdf

———————————————————开始————————————————————-

论文中是这么说的:在非负矩阵分解问题clip_image006中,要用W和H两个矩阵逼近原始的矩阵V,用损失函数1:最小方差clip_image007

以及损失函数2:KL散度clip_image008

这里的A等于V,B等于WH。对于这两个损失函数,作为目标函数最小化它时,它只对W或者只对H其中一个作为变量时为凸函数,对两个同时作为变量时就不是凸函数,所以无论对于哪个损失函数,都没有有效的方法求得全局最优解,因为W,H都是我们要求的变量,而此时函数又非凸,对于非凸函数,只能找到合适的求解局部最优解的方法。

在求解这两个损失函数最优值的方法中,梯度下降是最简单的,但是收敛慢,共轭梯度法虽然在局部最值附近能快速收敛,但是实现起来很困难,所以,作者针对两种不同的损失函数提出了两种不同的迭代方法,证明过程在草稿纸上,打出来太麻烦了。

—————————结束———————————-

在本论文中,作者使用的损失函数为KL散度。也就是使用了这个迭代公式:

clip_image010。既然使用了文献【11】中的方法,那一定是有原因的,也就是本论文中针对的问题一定是和文献【11】中的问题类似的。

   continue;

2 thoughts on “Large-scale behavioral targeting”

Leave a Reply

Your email address will not be published. Required fields are marked *