数学应用-信息论在信息处理中的应用

我们已经介绍了 信息熵 ,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。

先看看信息熵和语言模型的关系。我们在 系列一 中 谈到语言模型时,没有讲如何定量地衡 量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器 翻译的错误,那么就拿一个语音识 别系统或者机器翻译软件来试试,好的语言模型必然导 致错误率较低。这种想法是对的,而且今天的语音识别和机器翻译也是这么做的。但这种测 试方法对于研发语 言模型的人来讲,既不直接、又不方便,而且很难从错误率反过来定量 度量语言模型。事实上,在贾里尼克 ( Fred Jelinek ) 的人研究语言模型时,世界上既没有像样 的语音识别系统,更没有机器翻译。我们知道,语言模型是为了用上下文预测当前的文字, 模型越好,预测得越准,那么当前文字的不确定性就越小。

信 息熵正是对不确定性的衡量,因此信息熵可以直接用于衡量统计语言模型的好坏。贾里 尼克从信息熵出发,定义了一个称为语言模型复杂度 (Perplexity) 的概念,直接衡量语言模 型的好坏。一个模型的复杂度越小,模型越好。李开复博士在介绍他发明的 Sphinx 语音识 别系统时谈到,如果不用任何语言模型(即零元语言模型)时,复杂度为 997 ,也就是说句 子中每个位置有 997 个可能的单词可以填入。如果(二元)语言模型只考虑前后词的搭配 不考虑搭配的概率时,复杂度为 60 。虽然它比不用语言模型好很多,但是和考虑了搭配概 率的二元语言模型相比要差很多,因为后者的复杂度只有 20 。

信 息 论 中 仅 次 于 熵 的 另 外 两 个 重 要 的 概 念 是 “ 互 信 息 ” ( Mutual Information) 和 “ 相 对 熵 ” ( Kullback-Leibler Divergence) 。

“ 互 信息 ” 是信息熵的引申概念,它是对两个随机事件相关性的度量。比如说今天随机事件 北京下雨和随机变量空气湿度的相关性就很大,但是和姚明所在的休斯敦火箭 队是否能赢 公牛队几乎无关。互信息就是用来量化度量这种相关性的。在自然语言处理中,经常要度量 一些语言现象的相关性。比如在机器翻译中,最难的是词 义的二义性(歧义性)。 比如 Bush 一词可以是美国总统的名字,也可以是灌木丛。(有一个笑话,美国上届总统候 选人凯里 Kerry 的名字被一些机器翻译系统翻译成了 " 爱尔兰的小母牛 " , Kerry 在英语中另 外一个意思。)那么如何正确地翻译这个词呢?人们很容易想到要用语法、要分析语句等等。 其实,至今为止,没有一种语法能很好解决这个,真正 实用的方法是使用互信息。具 体 的 解决 办法 大 致如 下: 首 先从 大量 文 本中 找出 和 总统 布什 一 起出 现的 互 信息 最大 的 一些 词,比如总统、美国、国会、华盛顿等等,当 然,再用同样的方法找出和灌木丛一起出现 的互信息最大的词,比如土壤、植物、野生等等。有了这两组词,在翻译 Bush 时,看看 上下文中哪类相关的词多就可以了。这种方法最初是由吉尔 (Gale) ,丘奇 (Church) 和雅让斯 基 (Yarowsky) 提出的。

当 时雅让斯基在宾西法尼亚大学是自然语言处理大师马库斯 (Mitch Marcus) 教授的博士 生,他很多时间泡在贝尔实验室丘奇等人的研究室里。也许是急于毕业,他在吉尔等人的帮 助下想出了一个最快也是最好地解决翻译中的二义性,就是上 述的方法,这个看上去简单 的方法效果好得让同行们大吃一惊。雅让斯基因而只花了三年就从马库斯那里拿到了博士, 而他的师兄弟们平均要花六年时间。

信息论中另外一个重要的概念是 “ 相对熵 ” ,在有些文献中它被称为成 “ 交叉熵 ” 。在英语中是 Kullback-Leibler Divergence , 是以它的两个提出者库尔贝克和莱伯勒的名字命名的。相对 熵用来衡量两个正函数是否相似,对于两个完全相同的函数,它们的相对熵等于零。在自然 语言处理中可 以用相对熵来衡量两个常用词(在语法上和语义上)是否同义,或者两篇文 章的内容是否相近等等。利用相对熵,我们可以到处信息检索中最重要的一个概念:词频 率 – 逆向文档频率( TF/IDF) 。我们下回会介绍如何根据相关性对搜索出的网页进行排序,就要 用的餐 TF/IDF 的概念。另外,在的分类中也要用到相对熵和 TF/IDF 。

对信息论有兴趣又有一定基础的读者,可以阅读斯坦福大学托马斯 . 科弗 (Thomas Cover) 教授的专著 " 信息论基础 "(Elements of Information Theory) :

m/gp/product/0471062596/ref=nosim/103-7880775-7782209?n=283155 m/query/p?viBookCode=17909 科弗教授是当今最权威的信息论专家。

声明: 除非转自他站(如有侵权,请联系处理)外,本文采用 BY-NC-SA 协议进行授权 | 智乐兔
转载请注明:转自《数学应用-信息论在信息处理中的应用
本文地址:https://www.zhiletu.com/archives-2800.html
关注公众号:智乐兔

赞赏

wechat pay微信赞赏alipay pay支付宝赞赏

上一篇
下一篇

相关文章

在线留言

你必须 登录后 才能留言!

在线客服
在线客服 X

售前: 点击这里给我发消息
售后: 点击这里给我发消息

智乐兔官微