《数学之美》读书笔记
吴军博士的书,学术界的人写书,论据充分,逻辑严谨,调理清楚,而且能发现知识之间的联系。
书中提到的让自己思维开阔的事例:
1938年香农在他的硕士论文中指出用布尔代数来实现开关电路,才使得布尔代数成为数字电路的基础。所有的数学和逻辑运算,加、减、乘、除、乘方、开方等等,全都能转成二进制值的布尔运算。
以前知道香农就知道个香农定理。香农在研究生的时候的论文,就有了划时代的指导意义——通过与、或、非、运算,才把“计算”与“机(器)”联系起来,看起来简单的思路,确开创了计算机的一个基础原理。
自然语言处理
书中反复举了很多自然语言处理方面的例子,当然吴军是这方面的专家,而且就职于Google。提到的自然语言处理包括翻译、检索、语音识别、分词等。这个领域中最大的转变是从以前规则分析的方法转到统计分析的方法,以前处理如翻译问题,是依照“传统”的方法,可以认为是吴军提到过的“鸟飞派”,按照直觉的方式进行解决。
关于“鸟飞派”由来是飞机的发明过程中,一派按照仿生学的方式,模仿鸟的特性进行飞机的发明设计,而另一派莱特兄弟,是转而研究空气动力学,从本质上对问题进行分析。当然,“鸟飞派”的做法是人类最能开始想到的做法,只是没有透彻到问题的本质。
自然语言处理的“鸟飞派”,自然是仿照人的思维方式进行。例如想设计一种类似人语言处理的智能,或者进行词法、语法分析。当然这种方式也不是不可行,最主要是复杂,第二是准确度低。现阶段,使用统计语言模型比基于规则的解决方法更有效,另外一个颠覆性的事例:
Google的罗塞塔系统2007年第一次参加NIST的测评,这个仅开发了两年的系统便一鸣惊人地夺得第一,而且评测分数高出所有基于规则的系统很多,要知道后者已经开发了十几年。这里的秘密武器就是一个比其他竞争对手大上百倍的语言模型。
从基于规则的方法到基于统计的方法,本质上是看待问题的方式完全不同。甚至可以说是,数学家解决了语言学家的问题,抢了语言学家的饭碗。其中,李开复就是坚持使用统计的方法解决自然语言处理的问题,从一个默默无闻的博士生成为了一个该领域的科学家。
自然语言,按照吴军博士的分析,是一种通信的方式。通信过程需要进行编码、传输、解码。而很多自然语言处理的问题,都是“解码”的过程。当然,与一般的通信方式比,编解码的规则是相当的复杂,最特别的就是上下文相关。通信中编码后的信息虽然也有类似上下文相关,但在多大范围内相关、如何相关的规则是明确的。
不得不再次提到香农和他的信息论了,有个概念叫互信息,大数据时代,这个词其实更通俗的说是恒量“相关性”的一个概念,例如Bush到底是美国总统还是灌木丛(词的另外一个意思),如果靠规则分析是非常困难的,都是名词,但是如果整片文章中很多提到“美国”“白宫”“竞选”“伊拉克”等词,那么非常大概率这个词就是指的美国总统,而这些词就是上下文。
另外还可以利用其他通信中的理论进行自然语言的“解码”,如利用隐含马尔可夫模型,理解不是特别透彻,以后补充。
总结下,自然语言的处理,与通信中的“解码”过程非常相似,而且自然语言的传递就是一种通信过程,这样理解不仅可以利用信息论理论,还可以使用通信相关的模型与成熟理论进行处理。如果说信息论是一种发明,那么利用信息论(包括通信理论、统计学)解决自然语言处理问题,也是一种发明。
人工神经网络与大数据
2005年,有一件事件让全世界从事自然语言处理的人非常震惊。从来没有做过机器翻译的Google,在请到了世界著名的机器翻译专家弗朗兹奥科之后,一年多就开发了当时世界上最好的机器翻译系统。而且根据美国国家标准技术研究所(NIST)的年度测评结果,该系统比同类系统领先了一大截。比如在阿拉伯语的封闭测试集中,领先第二名将近5%,而提高这5个百分点过去需要研究5-10年,而在开放测试集中,比第二名领先了17%,可以说整整领先了一代人的水平。
中国说一代人一般是30年。上面提到过的一个例子,这里不是说方法的不同。第二名同样用的相同的基于统计的方法。而是说的大数据的力量:
奥科用的还是两年前的方法,但是却利用了比其他研究机构多几千甚至上万倍的数据,训练了一个六元模型。
由于数据量的限制,2000年后一些机构能够训练和使用四元模型。
数据的力量,也说明了数据的价值。