数学应用-余弦定理和新闻的分类

发表者:吴军,Google 研究员

余弦定理和的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联 系。具体说,的分类很大程度上依靠余弦定理。

Google 的是自动分类和整理的。所谓的分类无非是要把相似的放 到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算 法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办法用一组数字 来描述一篇新闻。

我们来看看怎样找一组数字,或者说一个向量来描述一篇新闻。回忆一下我们在 “ 如何度量网页相关性 ” 一文中介绍的TF/IDF 的概念。对于一篇新闻中的所有 实词,我们可以计算出它们的单文本词汇频率/逆文本频率值(TF/IDF)。不难想 象,和新闻主题有关的那些实词频率高, TF/IDF 值很大。我们按照这些实词在 词汇表的位置对它们的 TF/IDF 值排序。比如,词汇表有六万四千个词,分别为

单 词编号 汉字词

—————– – 1 阿 2 啊

3 阿斗 4 阿姨 …

789 服 装 ….

64000 做作

在 一篇新闻中,这 64,000 个词的 TF/IDF 值分别为

单 词编号 TF/IDF 值 ============== 1 0

2 0.0 034 3 0

4 0.0 0052 5 0 …

789 0 .034 …

64000 0.075

如 果单词表中的某个次在新闻中没有出现,对应的值为零,那么这 64,000 个数, 组成一个 64,000 维的向量。我们就用这个向量来代表这篇新闻,并成为新闻的 特征向量。如果两篇新闻的特征向量相近,则对应的新闻内容相似,它们应当归 在一类,反之亦然。

学 过向量代数的人都知道,向量实际上是多维空间中有方向的线段。如果两个向 量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向 是否一致,这就要用到余弦定理计算向量的夹角了。

余 弦定理对我们每个人都不陌生,它描述了三角形中任何一个夹角和三个边的关 系,换句话说,给定三角形的三条边,我们可以用余弦定理求出三角形各个角的 角度。假定三角形的三条边为 a, b 和 c,对应的三个角为 A, B 和 C,那么角 A 的余弦 —

如 果 我们将三角形的两边 b 和 c 看成是两个向量,那么上述公式等价于

其 中 分母表示两个向量 b 和 c 的长度,分子表示两个向量的内积。举一个具体 的例子,假如新闻 X 和新闻 Y 对应向量分别是 x1,x2,…,x64000 和 y1,y2,…,y64000,

那么它们夹角的余弦等 于,

当 两条新闻向量夹角的余弦等于一时,这两条新闻完全重复(用这个办法可以删 除重复的网页);当夹角的余弦接近于一时,两条新闻相似,从而可以归成一类; 夹角的余弦越小,两条新闻越不相关。

我们在中学学习余弦定理时,恐怕很难想象它可以用来对新闻进行分类。在这里, 我们再一次看到工具的用途。

声明: 除非转自他站(如有侵权,请联系处理)外,本文采用 BY-NC-SA 协议进行授权 | 智乐兔
转载请注明:转自《数学应用-余弦定理和新闻的分类
本文地址:https://www.zhiletu.com/archives-2805.html
关注公众号:智乐兔

赞赏

wechat pay微信赞赏alipay pay支付宝赞赏

上一篇
下一篇

相关文章

在线留言

你必须 登录后 才能留言!

在线客服
在线客服 X

售前: 点击这里给我发消息
售后: 点击这里给我发消息

智乐兔官微