数学应用-隐含马尔可夫模型在语言处理中的应用

发表者:吴军,Google 研究员

前言:隐含马尔可夫模型是一个模型,到目前为之,它一直被认为是实现快 速精确的语音识别系统的最成功的方法。复杂的语音识别通过隐含马尔可夫 模型能非常简单地被表述、解决,让我不由由衷地感叹模型之妙。

自 然语言是人类交流信息的工具。很多自然语言处理都可以等同于通信系 统中的解码 — 一个人根据接收到的信息,去猜测发话人要表达的意思。这 其实就象通信中,我们根据接收端收到的信号去分析、理解、还原发送端传送过 来的信息。以下该图就表 示了一个典型的通信系统:

其中 s1,s2,s3…表示信息源发出的信号。o1, o2, o3 … 是接受器接收到 的信号。通信中的解码就是根据接收到的信号 o1, o2, o3 …还原出发送的信 号 s1,s2,s3…。

其 实我们平时在说话时,脑子就是一个信息源。我们的喉咙(声带),空气, 就是如电线和光缆般的信道。听众耳朵的就是接收端,而听到的声音就是传送过 来的信 号。根据声学信号来推测说话者的意思,就是语音识别。这样说来,如 果接收端是一台计算机而不是人的话,那么计算机要做的就是语音的自动识别。 同样,在计算 机中,如果我们要根据接收到的英语信息,推测说话者的汉语意 思,就是机器翻译; 如果我们要根据带有拼写错误的语句推测说话者想表达的 正确意思,那就是自动纠错。

那么怎么根据接收到的信息来推测说话者想表达的意思呢?我们可以利用叫做 “ 隐含马尔可夫模型 ” (Hidden Markov Model)来解决这些。以语音识别 为例,当我们观测到语音信号 o1,o2,o3 时,我们要根据这组信号推测出发送的 句子 s1,s2,s3。显然,我们应该在所有可能的句子中找最有可能性的一个。用 语言来描述,就是在已知 o1,o2,o3,…的情况下,求使得条件概率 P (s1,s2,s3,…|o1,o2,o3….) 达到最大值的那个句子 s1,s2,s3,…

当然,上面的概率不容易直接求出,于是我们可以间接地计算它。利用贝叶斯公 式并且省掉一个常数项,可以把上述公式等价变换成

P(o1,o2,o3,…|s1,s2,s3….) * P(s1,s2,s3,…) 其中

P(o1,o2,o3,…|s1,s2,s3….) 表示某句话 s1,s2,s3…被读成 o1,o2,o3,…

的可能性, 而

P(s1,s2,s3,…) 表示字串 s1,s2,s3,…本身能够成为一个合乎情理的句子的 可能性,所以这个公式的意义是用发送信号为 s1,s2,s3…这个数列的可能性乘 以 s1,s2,s3…本身可以一个句子的可能性,得出概率。

(读者读到这里也许会问,你现在是不是把问题变得更复杂了,因为公式越写越 长了。别着急,我们现在就来简化这个问题。)我们在这里做两个假设:

第一,s1,s2,s3,… 是一个马尔可夫链,也就是说,si 只由 si-1 决定 (详见 系列一 );

第二, 第 i 时刻的接收信号 oi 只由发送信号 si 决定(又称为独立输出假设, 即 P(o1,o2,o3,…|s1,s2,s3….) = P(o1|s1) * P(o2|s2)*P(o3|s3)…。 那么我们就可以很容易利用 Viterbi 找出上面式子的最大值,进而找出要 识别的句子 s1,s2,s3,…。

满足上述两个假设的模型就叫隐含马尔可夫模型。我们之所以用“隐含”这个 词,是因为状态 s1,s2,s3,…是无法直接观测到的。

隐 含马尔可夫模型的应用远不只在语音 识别中。在上面的公式中,如果我们把 s1,s2,s3,…当成中文,把 o1,o2,o3,…当成对应的英文,那么我们就能利用 这个模型解决机器翻译问题; 如果我们把 o1,o2,o3,…当成扫描文字得到的图 像特征,就能利用这个模型解决印刷体和手写体的识别。

P (o1,o2,o3,…|s1,s2,s3….) 根据应用的不同而又不同的名称,在语音识别 中它被称为“声学模型” (Acoustic Model), 在机器翻译中是“翻译模型” (Translation Model) 而在拼写校正中是“纠错模型” (Correction Model)。 而P (s1,s2,s3,…) 就是我们在系列一中提到的语言模型。

在利用隐含马尔可夫模型解决语言处理问题前,先要进行模型的训练。 常用的 训练方法由伯姆(Baum)在 60 年代提出的,并以他的名字命名。隐含马尔可夫 模型在处理语言问题早期的成功应用是语音识别。七十年代,当时 IBM 的 Fred Jelinek (贾里尼克) 和卡内基·梅隆大学的 Jim and Janet Baker (贝克夫妇 , 李开复的师兄师姐) 分别独立地提出用隐含马尔可夫模型来识别语音,语音识别 的错误率相比和模式匹配等方法降低了三倍 (从 30% 到 10%)。 八十 年代李开复博士坚持采用隐含马尔可夫模型的框架, 成功地开发了世界上第一 个大词汇量连续语音识别系统 Sphinx。

我 最早接触到隐含马尔可夫模型是几乎二十年前的事。那时在《随机过程》(清 华“著名”的一门课)里学到这个模型,但当时实在想不出它有什么实际用途。 几年 后,我在清华跟随王作英教授学习、研究语音识别时,他给了我几十篇文 献。 我印象最深的就是贾里尼克和李开复的文章,它们的核心思想就是隐含马 尔可夫模型。复杂的语音识别问题居然能如此简单地被表述、解决,我由衷地感 叹模型 之妙。

声明: 除非转自他站(如有侵权,请联系处理)外,本文采用 BY-NC-SA 协议进行授权 | 智乐兔
转载请注明:转自《数学应用-隐含马尔可夫模型在语言处理中的应用
本文地址:https://www.zhiletu.com/archives-2796.html
关注公众号:智乐兔

赞赏

wechat pay微信赞赏alipay pay支付宝赞赏

上一篇
下一篇

相关文章

在线留言

你必须 登录后 才能留言!

在线客服
在线客服 X

售前: 点击这里给我发消息
售后: 点击这里给我发消息

智乐兔官微