深层置信网DBN的快速学习方法

本篇笔记来自研一上学期读的一篇论文:A fast learning algorithm for deep belief nets.

2015年11月09日补充:现在看这篇笔记,当时并没有完全理解论文内容,本打算删除,后来想想以后有时间可以重读论文进行完善,特此说明。

        在给定数据的情况下很难推出隐藏层的条件分布,所以很难学习densely-connect,directed belief nets.有很多方法来近似逼近真正的条件分布,但是效果不太好,特别是对于最深层的隐藏层的时候,因为它们的先验概率被认为是独立的。很多的学习方法要求参数一起学习,这在参数增长时将耗费大量的时间. 作者提出了一个最上层为一个无向联想存储器的模型.其它的隐藏层形成的是一个有向无循环图,可以将联想存储器中的表示转为可视化,比如转为像素,图片等等.

        Explaining away 现象导致有向置信网很难推理, 隐层的后验分布很难处理, 只有在混合模型或者线性且含有高斯噪声模型中. MCMC方法可以通过抽样估计后验概率。变分法可以用来估计更难以处理的后验分布,而且它能提高训练数据对数概率的下界.值得庆幸的是:这个学习方法即使在对隐藏层状态推理错误的情况下,仍然能提高下界值.希望能找到一种即使是模型的隐藏层和显层高度相关的情况下还能消除explaining away现象

logistic belief net由随机二值节点组成, 如果LBN只有一个隐藏层,那么隐藏层的先验分布就是可分解的,因为模型在生成数据时,它们的二值状态是独立选取的,在隐藏层选取节点,是独立的。所以先验可以写成各自的组合形式。非独立的后验分布是多因一果,由data的似然函数即P(h|v)得到。在第一层隐藏层可以通过使用另外一层隐藏层产生与似然函数中反相关的互补先验的方法消除explaining away,用在生成过程方向上V1对h0的先验,此先验与v0对h0的先验反相关, 因为V1是由h0得到的,h0->v11,h0->v12,……,h0->vij,所以可以由此反向得到v0i与h0j的相关性,  因此可以消除explaining away现象。所以把先验和似然函数相乘后,得到的后验分布也是可以分解的,因为似然函数也成为了可分解的了 ,并不是所有的互补先验都能很容易看出来,但是无限logistic belief net的例子中,每一层都有complementary prior。使用tied weights构造互补先验就像是使用一些技巧使得有向网络模型变成无向网络模型,原模型就是bottom-up而没有up-bottom,即没有可以重现V0的步骤,而tied weights就是指up-bottom方向上的weights ,所以可以得到通过逐步将下层的weights untying from高层的weights的方法学习模型

        可以通过从无限深的隐藏层选取一个随机构型开始生成数据,根据注释知,所谓的无限还是有限的,在到达平稳分布之前迭代一定次数之后选取构型 .然后执行自顶向下的过程,从祖先节点向下传递.每层的节点状态都是从其上层激活状态的父节点作为输入的伯努利分布中选取的.和有向网不同的是,我们可以通过从在给定显层数据情况下隐层的真正后验分布中抽样,然后通过权值矩阵的转置反推每个隐藏层的后验分布,先从P(h|v)=p(h)*p(v|h)/p(v)抽样,即得到v_i0,然后再通过W‘计算得到h0 .v_i0是可见单元i能被激活的概率,如果可见变量是由隐层单元抽样后得到的即在重构数据中单元i能被激活的概率 。计算V1的后验分布p(v1|h0),和重构数据的过程是一样的,所以v_i1是以概率v_i0的概率从伯努利分布中抽样。v1与h_j0之间的关系是通过v_i0联系起来的,因为v_i0是given h_j0时的期望。

RBM只有一个隐藏层,而且隐藏层内部节点没有连接.隐藏层和显层对称连接.为了生成数据,可以随机选取一层并赋予随机状态,然后执行交替Gibbs抽样:在给定一层节点状态的情况下,另一层并行更新,这个过程持续到系统到达平稳状态。这个过程就像IBN中带有tied weights生成数据的过程.为了最大化RBM的似然函数,我们可以利用两个相连节点之间状态的差异.对于每一个权值w_ij,是显层节点i和隐层节点j之间的权重。当给定一个显层数据V0,隐层数据时由条件分布p(v|h)中抽样得到的且是可分解的,就得到一个<v0h0>。这时执行交替GIBBS抽样,直到该马尔科夫链到达稳定状态,此时计算<vi_infinite hj_infinite>,对数概率的梯度为:

这个学习规则和最大化infinite logistic belief net的似然函数的方法类似,每一步gibbs抽样都和计算ILBN的一层后验分布相对应,即是计算p(v|h) 。最大化数据data的对数概率,相当于最小化初始状态P0与平稳分布时的状态P_theta的KL散度 。 只执行n步的full gibbs抽样(h|v+v|h称为one full step) ,相当于忽略掉来自上层的n-1步的导数,即将bottom-up以及up-bottom之间的部分忽略了 ,忽略掉的这些导数值的和等于第n层的后验分布的对数概率的导数(第n层:p(h0|v0)*p(v1|h0)*p(h1|v1)……,然后求对数就得到和) 。gibbs抽样保证公式(5)不会是负值。P_theta(n)依赖于模型的参数,CD算法中,P_theta(n)随着参数变化的方式被忽略掉了 。这种情况不会出现在P0中,因为P0不依赖于参数。看似有效的方法也带来了很高的代价:当DMN的weights不相等时,CD算法效果不好,为了到达平稳状态将耗费大量的时间。下一节就给出了等价于RBM和IDN的有效学习方法,该方法在多层而且without tied weights的网络中效果不错。

多种模型组合的情况下,每学习一个模型都要重新调整参数。adaboost中是针对前面模型的错误决策调整权重。figure 5是作者提出的一个混合模型:最上层是无向连接,其它层都是有向的,最上层相当于无限多的higher layer with tied weights。内部没有连接,每层的节点都相等的,学习W0是比较简单的,假设高层的权值能用来提供W0的互补先验,相当于假设所有的权值矩阵是相等的,即可以用W0近似W1这个complementary prior 。这时学习W0就相当于学习一个RBM ,但是这仍然有一定的困难。更好的近似方法是CD。一旦得到W0,数据v0会映射到H0,H0继续用来create更高层的V1.为了使得这个模型更好,作者提出了greedy algorithm:1,假设所有的权值矩阵are tied 。2,使用W‘生成H0的近似后验分布,由v0得到H0,即得到P(h0|v0) ,即使在后面的计算中发现W’是错误的也没关系。3,视W0为不存在,继续学习。当这个greedy algorithm改变上层权值矩阵,它能保证提升该生成模型的整体性能。数据的负对数概率由一个变量自由能量energy限定,该energy是近似后验分布的期望值减去分布的墒值。如果使用full最大似然RBM的学习算法去学习tied weights,然后将最底层的从权值集中解除,就能每次学习一层的权值,并且保证在整个生成模型下不会降低数据的对数概率。实际中我们用CD替代MLRBM方法,即只执行n步gibbs抽样 。为了保证生成模型适用这个算法,将每层的节点设置为相同的,这样便于高层权值初始化为已经学习到的权值 。当然这个算法也可以用在不同层次有不同节点个数的模型中。

        每次只学习一层的权值虽然有效但不是最优的,一旦得到高层的权值,对于下层来说权值和推理过程都不是最优的.对监督学习来说贪心算法的子优化问题一般难以操作,因为带有标签的数据比较少,且只提供了关于参数约束的一少部分信息,对学习参数的约束条件比较少 ,所以容易过拟合.如果go back 重新拟合之前的模型学习的参数,这将带来很多麻烦。然而,无监督方法能用到大量的无标签数据集,而且每一个sample都将是高维数据,能提供很多信息。under-fitting成为了一个严重的问题,不过可以用back-fitting权值的子阶段,这个阶段是调整先学习到的权值去拟合后面学习到的权值,应该是对应后面的从W0’向上逐层调整权值的过程 。

        逐层学习并初始化每层的权值之后,将从决定模型的generative 权值推出的recognition 权值(转置)解除,但是保留一个限制条件:每层的后验必须由给定低层值得到的条件独立层内变量的因子分布做近似估计。 下面开始介绍wake-sleep算法 ,在向上的过程中,recognition 权值用来随机选择每一隐层的状态所谓“随机”,大概就是指取0或1是由一个概率决定的 , 有向连接中的generative权值通过最大化似然函数公式(2)被调整。最上层的无向连接权值,和之前层次的学习方法一样,通过将最上层RBM拟合倒数第二层的后验的方法来学习。

        向下的过程从联想存储器的一个状态开始,随机激活下一层的单元,和up-pass一致 ,在自顶向下的过程中,所有的生成方向的连接不变,只有最底层的recognition 权值发生调整。这等于wake-sleep的sleep阶段,如果在执行down-pass之前联想存储器系统状态到达了平稳分布状态。如果联想存储器被up-pass初始化而且在down-pass之前只允许执行有限步的gibbs抽样,这就是wake-sleep算法的一个对比形式算法,这避免了必须使联想存储器系统状态达到平稳分布。对比形式的wake-sleep算法还解决了sleep阶段的其它问题,它保证recognition 权值被用来学习类似真实数据的表达 ,还可以消除mode averaging 。如果给定一个数据sample,recognition 权值经常会在上层选取一个特定的模型,而忽略性能相当的比较复杂的模型,在向下的过程中,如果sleep节点是一个纯粹的从父节点到子节点的过程,向下过程中将不会改变recognition权值去恢复任何它能恢复的其它模型 。纯粹的ancestral pass需要上层的联想存储器系统状态gibbs采样到达平稳分布。通过上层的联想存储器消除wake阶段的问题:独立的上层单元要求允许ancestral pass ,但是这意味着变化的估计对上层权值矩阵作用不大 。