Category Archives: 学习心得

2014年总结

最近还是在继续做DNN,针对的问题还是广告CTR预估。DNN model理论方面的资料实在太少,看到的更多是一些pre-trianing这些的,而且大部分都是做图像,文本,语音的。所以干脆只关注如何求解,也就是如何优化DNN,调研了一些SGD方面的paper,重点看了Tong zhang的paper,不过我觉得针对非凸优化,那些方法不一定可行,先继续研究研究再说吧。
中间参加了一次面试,有些总结:1,我之前从不关注feature的,觉得那没啥意思没什么技术含量,经过面试才发现,对方还是很关注feature engineering的,特征的人工选择,如何选择,选了哪些作为feature等等。这个以后要注意,多玩数据,研究研究feature。2,对于model,我最开始学习机器学习时是很看重这个的,但是把李航那本统计学习方法的看了几遍,公式也推了一遍。以及后来的prml(这本书可真不好懂,最近在和几个小伙伴一起读第二遍)和ESL,也都看了。后来发现实际工业界用的也就那几种而已,完全没有必要个个都搞的很深(但是最好要都熟悉或者了解),而且我有时候觉得搞模型没啥意思啊,来个新数据,加个圈,就提出了一个新model,对我个人来说,不是很感兴趣。但是面试时会被问到不同的model的优缺点,为什么好为什么差,之前没仔细考虑过,以后要考虑清楚为什么DNN要比LR或者GBDT效果更好。估计要找不少paper,又会有很多时间是在做无用功,我心理上已经做好了准备。3,我之前看的很多的优化算法也有问到,owlqn这个我当时靠它把优化算法给串了一遍,结果面试时有些忘记说了,还是因为没有经常用到吧。以后要经常总结,多回顾。其实我觉得优化算法才是工业界可能做的最多的事情,model不会轻易改,也不好改,太难了;但是优化算法是可以尝试实验的,有数据有计算资源,肯定可以玩玩。
最近也看了google的FTRL,也说说自己的想法吧:一连串的paper读下来,发现牛人也是要站在巨人的肩膀上的,没有什么是突兀出现的,这也给我了一些启发,我一直想做好非凸优化这件事,那我就需要把相关paper串起来找灵感,而不是拍脑袋!另外,google的这篇paper也验证了工业界易算法不易做model的情况。
可能要关注的如下:
首先,LR,GBDT,DNN这三者在广告ctr预估上的优越性对比,模型的优缺点,为什么好为什么坏,这个是重点要掌握的,切记;
其次,FTRL,sgd,L-BFGS,owlqn,cdn,conjugate gradient descent,重点关注SGD以及各种变形。
最后,模型上的LR,GBDT,dnn,navie bayesian,maximum entropy,knn,SVM,LDA以及阿里的MLR,百度的DANOVA,实在太多了,只重点关注几个,比如LDA,现在我几乎不用了,但是也怕面试会再被问到。
以后打算重点关注large scale machine learning,这个信息量很大,绝对不是只扯model.加油!

附上之前关于deep learning的想法:

我的疑问:为什么大家都在讲deep learning?deep learning是什么?不就是多层的神经网络吗?多层神经网络不是早就有了吗?怎么突然大家像是找到了宝藏一样疯狂?不讲deep leaning你都不好意思和别人说你做机器学习的……
神经网络早就有了,多层神经网络也肯定早就出现过,但是在模型训练时 浅层还好,比如2层的(不算输入层,即只有输入层,单隐藏层,输出层的结构),使用BP方法训练,可以有不错的效果,可是,层数若是增加几层,比如弄个7,8层的隐藏层,使用BP方法训练时就会出现一种叫“梯度弥散”的问题,也就是说,在远离输出层的隐藏层训练其权值时,模型输出值与真实值之间的误差已经不能有效的指导权值的更新(这是BP算法自身性质造成的)。所以,多层神经网络效果不太好,因为没法很好的训练。
后来,针对这种深层网络,有人提出了新的训练算法,抛弃了BP方法。新的方法不再把整个网络中的权值作为一个整体同时训练,而是提出greedy的训练方法逐层训练:首先,只针对输入层与第一隐藏层进行训练,可以用auto-encode,rbm等等算法;然后,固定输入层,使用第一隐藏层与第二隐藏层进行训练,算法同上。依此类推…每一层的学习都是无监督的self-learning(自学习)也就是自己学习自己,至于能学出个什么东西来,我也不知道…应该是和数据和选定的算法有关吧。最后,在输出层与最后一层隐藏层训练时输入label做有监督学习,并根据训练误差做反向fine-tune(微调),具体怎么微调的,我也不知道。。。
我的个人观点:deep learning相对于神经网络的改进主要在以下几个方面:(1)由之前的作为整体训练改进为逐层贪心训练;(2)由之前的基于优化的思路(比如BP中的梯度下降求解)改进为即可有优化思路(比如auto-encode等)也可以有概率推理思路(比如RBM等)。
deep leaning是否有效的关键:(1)greedy训练过程中所选定的算法,比如,对某一个问题,auto-encode好还是RBM好?(2)据说deep leaning不适合解决离散信号(离散值)问题,而适合解决连续信号(离散值)问题。
另外,deep learning不一定单指deep神经网络,deep的思想可以用在其它模型中,而且貌似还挺有用。

思考两个问题:

(1)为什么要降维?降维的好处在哪里?降维前与降维后效果有什么差别?

(2)需要如何处理广告数据的feature?找出与图像的“同构”?还是把图像与广告数据都映射到一个新的“空间”,再找其中的关系?

2013年总结

大概从去年9月份(研一开学)开始接触机器学习。到目前为止也有一年多,最近身心无力,有一种严重的挫败感。

最开始的时候关注搜索引擎,大概在去年8,9月份吧,最初是从北京理工大学的一篇论文开始的,那篇论文貌似是发表在2010年的KDD,主要讲的是根据标签密度抽取网页内容的方法。也是偶然从一个QQ群里看到有人讨论这篇论文,然后就拿来读了读,用C++写了网页爬取的程序,爬了一些新浪博客的内容,又用C++简单实现了一下论文的方法,先调用一个xml库将网页解析成DOM tree,然后获得tag之间的内容,密度值设置30左右时效果最好。后来就没有继续在做,主要是觉得太机械,不够智能。现在挺怀念那段时间的,虽然什么都不懂什么都不会,但是有很多时间可以尝试去做自己感兴趣的事情。而且那时候心态一直很好,什么问题都敢问,即使被人嘲笑了也觉得无所谓,就觉得自己很差被别人嘲笑也没什么,还有很多时间去学习,去做自己喜欢的事情。

九月份研究生开学,最初的一个月我一直处于恍惚之中,不是精神恍惚,是有些不敢相信现实:在社会上晃悠了将近2年的我,怎么现在又坐在教室里了?呵呵,现在想起来自己挺搞笑的。最初的一个月,几乎没怎么睡觉,每天都很亢奋,晚上睡的很晚,早上起得很早,从网上查机器学习的基本模型算法,计划一个个先学习一遍。花了将近一个月学习决策树,主要时间花在了看懂源码上了。现在觉得不该那么学习,方法不对,特别是要读懂上千行的代码,感觉有些不值得。

后来,爬微博上的内容,从网上搜集了一些资料,模拟登录新浪微博,以浏览网页方式爬取微博内容,用python写的,不过大部分代码都是从网上找的,根据微博ID一个一个爬,从文件中读取ID,发送命令,获取返回字符串,保存到硬盘里。微博ID是从梁斌博士那里copy的,那天上午我跑到清华,但梁博士说不在学校,然后我就在清华东门附近晃悠了一中午,午饭吃了肠粉,真不好吃,扔了。下午找到梁博士,copy,走人,在此向梁斌博士表示感谢。。话说我看到一个牌子上写搜狗与清华联合实验室什么的,感慨他们的条件真不错。记得临走时梁斌和我说:这些数据你拿着,预祝你在科研上能取得进步!唉,很可惜,自己并没有在科研上有什么进展。由于实验室没有服务器,我的小破笔记本又太慢,所以每个ID只爬取45条微博,我算了一下,如果只用笔记本的话,要爬到第二年8月份..于是我到处找服务器用,但是没找到,后来找到2个同学借用了实验室台式机。爬回来的数据占用空间太大,又用C++写程序提取内容,本来打算用之前实现的北理工论文方法的,但是效果不太好,微博本来就140字,一不小心一条微博就被丢掉了,所以就基于标签匹配的方式提取内容,主要是有转发的情况不好处理,不过,调调程序,总算搞定了。大概持续了将近一个月吧,也不知道爬回来的数据怎么用,就没继续做了。现在想想,那个时候还处于原始阶段,也就只能弄个爬虫基于规则写个程序什么的,太简单太原始,太傻太天真。

中间去过中科院信工所面试实习生,主要是想趁导师不在出去实习学点儿东西,也是想尽快做“真正的机器学习”,面试时问了我关于爬虫的事,貌似还有一些基本的机器学习算法的问题,一切顺利,但是问到实习时间时出问题了,时间达不到要求,然后就没去成。记得我还提了一个关于分类的想法,大概意思是:特征处理成向量形式,从前向后扫描时记录1所在的位置,对于每条样本,计算一个sum += exp(index_i),然后再根据每条样本计算得到的那个sum数值分类…,不过都是瞎想的,不可行。面试时信工所老师的意思是让我去做爬虫方面的事情,后来虽然没去,不过我细细想了一下:为啥是让我做爬虫?因为我当时的能力貌似只能做爬虫…然后我就想,不能这样,我得做些更有技术含量的事情。

回到学校后继续学习机器学习算法,李航的《统计学习方法》我是从前往后看的,特别是SVM那一章,不容易看懂,我就推公式,也泡图书馆查资料…推着推着,发现自己已经不是在学习机器学习的事情了,已经完全陷入了数学的包围圈,记得当时在图书馆读一本叫做least square什么什么的书,突然我又迷茫了:这样是不是不太好啊,这成了学数学了啊。我不讨厌数学,但是我更喜欢应用数学…于是,在20天左右之后,我又不知道该怎么办了。我焦虑,失眠,甚至有些失望,我每天呆在寝室学习,晚睡早起,目的就是想多学些东西,把我自大一以来浪费的时间,浪费的知识不会来,可是现在呢,感觉不到自己的进步…

快期末考试了,我继续东一下西一下的学习机器学习,看优化算法方面的书,把本科时的数值分析也重新翻了出来。后来我觉得可能是因为我没有实际的应用场景,所以不知道具体该学什么,所以我决定找个应用方向,当时是从自然语言处理,推荐系统,数据挖掘三个方向选的,思来想去,选择了推荐系统。然后开始学习LDA,读blei的那篇经典论文,和北航一个博士师兄一起推导论文中的公式,看源代码,关于变分推理那部分的代码,真是难,还有梯度求导,花了好几个星期,期间还要参看其它论文,总之,又是一段时间的亢奋,记得那时候我经常每晚快12点了才从北航骑车回学校,冻得要死。后来寒假放假,室友都走完了,我还是每天早起晚归,还好北邮离北航不算太远。

年后,导师从国外回来了,要派我去公司实习,我是真不想去,想继续跟着北航博士师兄做事情,后来不得不去,我抱着试一试的态度过去一看,不到20人的公司,老板说,我们的技术是“国内领先的”,听到这句话我已经明白了…然后就是找导师谈我的想法,说我已经做了很多努力,想在机器学习这条路上走下去,花了不少时间和精力,导师同意了,所以我必须回实验室。记得是今年(2013年)的3月22号,我搬到了实验室,我说打算做推荐系统,导师就说让我要找到新的问题,要多看论文,可是我不知道怎么去找到新的问题,导师告诉我说,就是多看论文,你做的东西我也不懂,全靠你自己了。然后我就到处搜集论文,到处查资料,先行综述看起,看了一些论文,做了一些PPT,然后,问题还没有找到,我也很着急,可是也没办法, 我问导师:关于如何找到新问题,如何读论文,有没有一套方法论的东西?导师说没有。那好吧,我实在没办法了,继续读论文吧。然后发现online learning应该是个不错的方向,所以就查资料,关于online learning的一些算法,以及reinforcement learning的资料,还找到了VW的源代码去看,可是,我又陷入了一个误区,看什么源代码啊,要发现问题思考问题啊,唉,时间就是这么浪费的…

5月份的时候,我觉得推荐系统不好找到新问题,我觉得做个比较新的方向吧,应该容易找到新的问题,然后我就关注计算广告学,看刘鹏老师的视频,查相关资料,读相关论文。期间参加阿里实习生面试,通过了,6月底了才让去入职,话说效率好低。去了公司,亢奋,我每天6点就起床,先坐公交再坐地铁,7点10分左右能到公司,比别人早去2个小时。早班地铁上人少,我就拿起论文看。每天这样,一直到实习结束。实习的内容就是读读论文,讲讲论文,大部分都在读吧,一共讲了3次,然后就是一些小项目小程序,接触到了hadoop, 写了hadoop job, 对展示广告有了深入的了解,也做了一些实验。最大的收获是改掉了之前拿起论文就开始推导公式的坏毛病,都不看论文是解决什么问题的,这和之前的经历有关,之前做推荐方面的事情的时候,由于是跟着别人学习,所以自己just do, 没有问过why。也就是没有独自思考问题的能力。实习期间向刘鹏老师请教过,刘老师说E&E问题还有的搞,但是比较难,可是,我正是那种明知山有虎偏向虎山行的人,我一听比较难做,又亢奋了,就搞E&E了!所以整个暑假除了ctr预估方面论文,就是E&E的论文,快开学的时候,开始coding,打算把baseline实现了。开学后我把想法和导师一说,导师说只是个比例问题,还是不要搞了,所以就没继续做了。

回到实验室,重新开始关于ctr预估方面的学习,暑假的东西真是白做了,好痛心。又是一顿狂搜集资料,可惜的是这方面资料比较少。后来我一想,先实现baseline吧,就是线性模型logistic regression。找来kddcup 2012 track 2的数据自习研究,给自己的笔记本添了内存条,达到16G的土豪配置。然后学习MPI,Redis,处理数据,用C++编程…5900万的维度,1100万的样本,并行logistic regression,SGD的并行,读了AUC的资料,用C++写了个计算AUC的程序,一算,AUC最好才0.55,我还不如扔了算了……

过去的一年,我失败的一年,每天很忙碌,但是过的很乱,我现在很受伤,很受打击,最让我觉得毫无意义的是收集资料的时间,有时候想解决一个问题,论文就在那里,可是我却好不容易才找到,这些不是只靠输入关键词就能找到的论文,是最浪费我的生命的!我很羡慕那些有人指导有人带领的同学,他们的师兄师姐随手指定一些论文,就可以安心去读了。而我却还要一边读一边判断是否是我需要的,虽然有些是可以通过introduction或者conclusion直接判断的,但是有些是开始觉得是我想要的,然后看着看着就发现不是了,所以就丢掉继续找下一篇…就这样,TM的我的时间就这样没了!!!我到现在也没能仔仔细细认认真真读过超过20篇论文。时间总是在忧郁不觉中慢慢流逝,到头来什么也没得到。我有不少书,凸优化,PRML,MLAPP,每一本都是读一些,或者跳跃着读,从来没有系统的完整读过一本。

到现在我突然觉得自己一无所获,一无所有,搞了一年的机器学习,感觉还不如别人天天没事儿刷刷题。但是我不后悔自己的选择,只是,接下来的一年要改变学习策略了。从现在起,有一年的实习时间,如果能找到合适的实习机会,就继续把全部精力放到机器学习这件事,继续做自己喜欢的研究性学习。如果不能找到合适的实习机会,那就把时间放在安心读书上,首先要做一个合格的码农。

未来的计划一是花时间继续刷题,而是认真读书PRML,MLAPP,convx optimization(感觉不如numerical optimization好啊),matrix analysis…去TM的论文,再也不会像以前那样花大量的时间就为了找到一篇论文!受够了!!!

如何读论文

一直以来,也看了不少论文,但是总有一个问题,当别人问我这篇论文主要讲的什么的时候,我总是答不好,或者是回答之后别人还是不明白。

这不是一个小问题,也曾经让我很苦恼,所以我后来分析了一下原因。

之前,我看论文重点在模型以及算法公式的推导,总会针对论文中的公式推导来推导去,一定要把每个步骤都搞清楚心里才踏实。这样的做法,第一,很费时间,第二,会陷入局部而不知全局,也就是不能hold住论文的整体。另外,我基本不看论文的实验部分,这是一个很大的遗憾和错误。

所以,以后看论文要关注一下几点:

1,这篇论文的模型和算法是什么(不是公式怎么推导),解决的什么问题,为什么这个模型和算法在这篇论文中适用?

2,尝试从另外的角度去思考论文中的问题,思考如何扩展论文作者的idea,看能否想出更好的解决问题的方法。

3,怎样改进论文中的模型和算法使得它能够解决新的问题。

4,实验部分:用的什么数据,什么数据格式,数据如何分割的,实验是如何做的,如何评估实验结果的。

以后慢慢改进方法,要做个能动脑又能动手的人。

 

有些论文,一定要精读,读完之后才会有感觉。现在读论文开始思考为什么他们的方法好,模型方面还是算法方面,怎么变好的,他们的假设是什么。另外一个想法就是遇到公式时,要解释公式而不是只推导公式,我觉得这个对理解问题非常重要,要锻炼自己解释公式的能力,如果能把公式解释好,向别人讲时就能讲明白,否则就讲不明白,亲身经历。