1. 乔姆斯基的形式语言+香农的数学处理自然语言想法=贾里尼克的统计语言模型;
2. 从查字典法到统计语言模型的应用,中文分词语义二义性得以解决;
3. 套用隐含马尔可夫模型利用概率计算解决语音识别难题;
4. 信息熵-香农提出度量信息的概率公式;
5. 布尔代数用最简单的数学逻辑为搜索引擎的索引提供了最基本的运算原理;
6. 离散数学作为计算机科学的基础,它包含的图论是节点概念的由来之处,从而有了网络爬虫帮助自动下载互联网所有网页;
7. 信息熵是用来衡量不确定性的,统计语言模型复杂度越小效果越好,互信息通过度量两个随机事件的相关性来减少不确定性,而相对熵TF/IDF是衡量相关性多少的重要指标;
8. 贾里尼克没有做律师和医生,对语言学家存有偏见,却是CLSP最严谨的教授;
9. TF/IDF通过关键词词频并赋予其权重最终加权求和,利用对数函数解释了搜索结果与相关网页的匹配度问题;
10. 利用图论原理建立有限状态机,每一个有向图都是一个有限状态机,以此来识别和分析地址,完成本地搜索从启始到终止的状态;
11. 谷歌的AK47制胜原则就是传说中的KISS原则,辛格博士坚持用最简单的方法解决问题,事实证明其最接近最优化的有效解决方案;
12. 利用TF/IDF值来将新闻进行实词词频概率的计算从而实现不同新闻的分类,分类依据就是余弦定理和向量,例如余弦值为1的两条新闻为重合可删除,余弦值趋近1则两条新闻越相似,余弦值越小说明两条新闻相关性越小应当分属不同类别;
13. 信息也有指纹,赋予信息以独特指纹来避免下载重复网页,并缩小信息存储所需空间,生成一个16字节的随机数并存入哈希表即可,最重要的是根据这一串随机数无法逆向推出其包含的信息,即随机数与信息本身不存在相关性,但是这种方式应用于信息加密中仍然具有漏洞,黑客高手仍然可以在这种加密方式下破坏捣乱,例如随意产生用户的cookie;
14. 提出地心说的托勒密用四十个套在一起的圆的方程精确计算出了地球周边所有行星运动的轨迹,而开普勒却幸运的发现了行星轨道是椭圆形的,于是这个方程就更为简单了,这个故事说明一个正确的数学模型建构需要大量精确数据做支撑,在形式上应该尽可能简单,并具有高度概括性;
15. 自然语言的处理不仅有布莱尔追求极简而又高效方法的天才,更有追求完美做到极致的柯林斯副教授;
16. 最大熵原理是为了在有不确定信息的情况下尽可能降低所有可能的风险,即对一个随机事件的概率分布进行预测时,应当满足所有已知条件同时不对任何未知状况做主管假设;
17. 最大熵模型的构建非常漂亮,堪称完美,利用迭代算法来估算每种信息特征在训练数据中的分布并进行相应调整,直至收敛,然而最大熵模型的实现却非常复杂,当年经过改造的文法最大熵模型利用20台最大的SUN工作站,仍然计算了三个月,至今全球能实现最大熵算法的人也不过寥寥数百人而已。但是最大熵的应用对于金融证券来说无非是一大福音,这就是为什么AT&T实验室解散了,而大部分数学家却在华尔街一夜暴富的原因;
18. 从机票GDS分销系统的第一屏优先拓展到整个网页排名,带来的是搜索引擎的普遍作弊,即一个网页引用的链接越多,排名就可能越靠前,于是大量空壳网站涌现开始大肆贩卖假链接,然而这种猫捉老鼠的问题只是时间和噪音的问题,需要长期膨胀自爆把柄但是却不能根除;
19. 线性代数中的矩阵运算可以用来解决多个自然语言文本的主题归类问题,它将两两文本的相关性度量问题拓展到多个文本的奇异值分解并行计算,大大提升了文本分类识别的效率;
20. 贝叶斯网络将线性有向的马尔科夫链拓展为错综复杂的有向网状结构,依然保持每个状态值取决于其前面有限个的状态值,因此推断各个状态之间相关的概率则是关键,而这个参数的推算过程又依赖于大量可靠数据,从而最终可以应用于图像和文字处理甚至决策支持等方面;
21. 马库斯被尊为自然语言处理方面的教父,因为他具有常人不可比拟的远见卓识,当人们热衷于互联网的研究时,他已经看到互联网的泡沫,并转战生物信息学开疆辟土;互联网泡沫破裂后,很多大学计算机系开始向生物信息学转向,这时好的教授已经很难找了;
22. Bloom Filter仅为哈希表的1/4甚至1/8,是一个很长的二进制向量和一系列随机映射函数,利用数学集合过滤垃圾邮件,快速且省空间,但是仍然存在1/10000的误判率;
23. 据说《暗算》是一部很好的关于密码学的电视剧,其中密码学的最高境界就是敌人根据已知密文无法破译再次截获的密文,即通过密文的多频次截获和统计,情报信息没有任何增加,这在数学原理上需要密码系统的设计在加密时使用毫无相关性的多组公开密钥对应某一密文并进行独立统计,只要不知道私钥就无法解密,当然可以用计算机从头到尾试一次所有的数字来计算私钥,但私钥足够大计算机50年算不完就基本安全了;
24. 输入一个汉字平均需要敲2.1次键,但是如果把汉字组成词那么每个汉字的平均信息熵就减少,敲一个汉字平均只需要1.7次键盘,如果把上下文的相关性纳入考虑范围计算频次那么输入一个汉字只需敲击1.3次键盘;
25. 全球导航寻求最短最优线路和输入法中寻求最匹配最准确最快速输出字元,道理其实都是一样的,在图论中利用动态规划的算法,利用节点与节点之间的弧度计算,找出最短路径同时找出上下文相关性最高的字词,进行动态的优化,构成最合理的解。