数学应用-闪光的不一定是金子–谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)

Google 研究员 吴军

自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发 现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一 定是金子。

搜索引擎的作弊,虽然方法很多,目的只有一个,就是采用不正当手段提高自己 网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的, 重复地罗列各种数码相机的品牌,如尼康、佳能和柯达等等。为了不让读者看到 众多讨厌的关键词,聪明一点的作弊者常用很小的字体和与背景相同的颜色来掩 盖这些关键词。其实,这种做法很容易被搜索引擎发现并纠正。

在有了网页排名(page rank)以后,作弊者发现一个网页被引用的连接越多,排 名就可能越靠前,于是就有了专门卖链接和买链接的生意。比如,有人自己创建 成百上千个,这些上没有实质的内容,只有到他们的客户的连接。 这种做法比重复关键词要高明得多,但是还是不太难被发现。因为那些所谓帮别 人提高排名的,为了维持生意需要大量地卖链接,所以很容易露马脚。(这 就如同造假钞票,当某一种假钞票的流通量相当大以后,就容易找到根源了。) 再以后,又有了形形色色的作弊方式,我们就不在这里一一赘述了。

几年前,我加入 Google 做的第一件事就是消除网络作弊。在 Google 最早发现搜 索引擎作弊的是 Matt Cutts,他在我加入 Google 前几个月开始研究这个问题, 后来,辛格,马丁和我先后加入进来。我们经过几个月的努力,清除了一半的作 弊者。(当然,以后抓作弊的效率就不会有这么高了。)其中一部分网站从此" 痛改前非",但是还是有很多网站换一种作弊方法继续作弊,因此,抓作弊成了 一种长期的猫捉老鼠的游戏。虽然至今还没有一个一劳永逸地解决作弊问题的方 法,但是,Google 基本做到了对于任何已知的作弊方法,在一定内发现并 清除它,从而总是将作弊的网站的数量控制在一个很小的比例范围。

抓作弊的方法很像信号处理中的去噪音的办法。学过信息论和有信号处理经验的 读者可能知道这么一个事实,我们如果在发动机很吵的汽车里用手机打电话,对 方可能听不清;但是如果我们知道了汽车发动机的频率,我们可以加上一个和发 动机噪音相反的信号,很容易地消除发动机的噪音,这样,收话人可以完全听不 到汽车的噪音。事实上,现在一些高端的手机已经有了这种检测和消除噪音的功 能。消除噪音的流程可以概括如下:

在图中,原始的信号混入了噪音,在上相当于两个信号做卷积。噪音消除的 过程是一个解卷积的过程。这在信号处理中并不是什么难题。因为第一,汽车发 动机的频率是固定的,第二,这个频率的噪音重复出现,只要采集几秒钟的信号 进行处理就能做到。从广义上讲,只要噪音不是完全随机的、并且前后有相关性, 就可以检测到并且消除。 事实上,完全随机不相关的高斯白噪音是很难消除的。)

搜索引擎的作弊者所作的事,就如同在手机信号中加入了噪音,使得搜索结果的 排名完全乱了。但是,这种人为加入的噪音并不难消除,因为作弊者的方法不可 能是随机的(否则就无法提高排名了)。而且,作弊者也不可能是一天换一种方 法,即作弊方法是相关的。因此,搞搜索引擎排名的人,可以在搜集一 段的作弊信息后,将作弊者抓出来,还原原有的排名。当然这个过程需要时 间,就如同采集汽车发动机噪音需要时间一样,在这段时间内,作弊者可能会尝 到些甜头。因此,有些人看到自己的网站经过所谓的优化(其实是作弊),排名 在短期内靠前了,以为这种所谓的优化是有效的。但是,不久就会发现排名掉下 去了很多。这倒不是搜索引擎以前宽容,现在严厉了,而是说明抓作弊需要一定 的时间,以前只是还没有检测到这些作弊的网站而已。

还要强调一点,Google 抓作弊和恢复网站原有排名的过程完全是自动的(并没有 个人的好恶),就如同手机消除噪音是自动的一样。一个网站要想长期排名靠前, 就需要把内容做好,同时要和那些作弊网站划清界限。

声明: 除非转自他站(如有侵权,请联系处理)外,本文采用 BY-NC-SA 协议进行授权 | 智乐兔
转载请注明:转自《数学应用-闪光的不一定是金子–谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)
本文地址:https://www.zhiletu.com/archives-2811.html
关注公众号:智乐兔

赞赏

wechat pay微信赞赏alipay pay支付宝赞赏

上一篇
下一篇

相关文章

在线留言

你必须 登录后 才能留言!

在线客服
在线客服 X

售前: 点击这里给我发消息
售后: 点击这里给我发消息

智乐兔官微