是谁计划了让人亦爱亦恨验证码:大家都来当校订

2015-08-30 6:30:37 暂无评论奇妙冰淇淋网络信息 784

文章来源：蝌蚪五线谱

　　说起“验证码”，恐怕大部分人都会流露出不悦的表情。在搜索引擎里输入“验证码” “发现”这两个关键字，搜索页面会弹出成千上万个表达群众不满的成果：“谁发现了万恶的验证码？”“发现验证码的人你出来，我保证不打死你”……

　　互联网的发展历史不长，验证码当然也很年轻。

林林总总的验证码（收集图）

　　前验证码时期

　　一开始，收集上是没有验证码的。那时想要在论坛上发帖，只需轻轻敲一下回车键。然而，谁人时期却没有各人以为的那么平静，事先的黑客也十分猖狂：他们编写了一种能够大批、重复编写信息的顺序，假装成人类用户，肆无忌惮地朝收集上倾倒大批的、无意义的“僵尸”信息，渣滓邮件、渣滓广告、渣滓评论到处乱飞。论坛被灌水，有用的信息很快会被淹没，良多网站的畸形运营遭到破坏。除此之外，还有数之不尽的顺序呆板人使用一直尝试的方式歹意破解密码、歹意刷票，从中获取非法的利益。强而有力的顺序呆板人如同霸王龙一样横行霸道，收集世界一片狼藉，眼看着就要失控了。

　　其中，受影响最大的当属电子邮件的供给商：他们的用户天天收到数以百计的渣滓邮件轰炸，严重地影响了畸形的任务；更要命的是，这些渣滓邮件还是用他们的零付费邮箱发出的。他们不可能一一审查邮件，由于那既不尊重隐私，任务量也太大。难道就没有任何手腕约束顺序呆板人了吗？事先最有实力的邮件供给商 Yahoo（雅虎）公司决定下狠劲改善这个成绩。很快，雅虎的负责人联系到了事先卡内基梅陇大学一位21岁的学生，他叫路易斯·冯·安（Luis von Ahn）。

2015年，时年36岁的路易斯（收集图）

　　反图灵测试

　　路易斯是一个计算机天才，17岁进入卡内基梅陇大学，在大学时期，他凭借良好的表现获得了导师曼纽尔·布鲁姆（Manuel Blum）的赏识，他的傲人履历也很可能是雅虎向他伸出橄榄枝的原因。

　　在研究过顺序呆板人的“任务手法”之后，他给出了一个独特的计划：在用户停止操纵之前，就将那些呆板人从畸形用户里揪出来。各人都晓得图灵测试的目的是将呆板伪造成人类，而路易斯的计划就是“反”过来：通过简略的方式将试图假装成人类的顺序呆板人鉴定出来。

　　好了，现在各人来想想，有什么是人类能够容易做到，而呆板不可能的呢？

　　数学题？呆板做得比人类出色多了；

　　写一篇洋洋洒洒保证书保证“我是人类”？呆板绝对写得又快又好；

　　画一幅画？拜托，谁有空每次在论坛发一次贴就画一次画？而且说真的，呆板画画也绝对比人类强；

　　晒出本人和电脑屏幕上的信息合影的照片？哪有那么多任务人员有空一个个审核呢。

　　路易斯发现，人类能够用肉眼很容易地辨认图片里的笔墨信息，而呆板就不能。事先的计算机辨识技巧还很落后，对于那些镶嵌在图片中的、被歪曲过、污染过的笔墨无法辨识，而人类只须要稍稍皱眉就能够辨认出来。路易斯在导师布鲁姆的帮助下很快设计了一个顺序，它先是产生一个随机的字符串，比方smwm，然后对这串字符停止随机的歪曲、重叠、污染，再显示给要停止操纵的用户。只要能够辨认这个变形了的smwm的，就是人类。

这个字符串阅历过歪曲、右侧加光调色的处置（收集图）

　　这个设计计划后来被命名为“CAPTCHA”，这是“Completely Automated Public Turing test to tell Computers and Humans Apart”首字母的缩写，意思是“全自动区分计算机和人类的图灵测试”，虽然看上去很夸张，但实际上还是挺简略易懂的。它的中文译名就是各人熟知的“验证码”啦。

　　人人都来当校对

　　21岁的路易斯·冯·安发现了验证码后真是名利双收，但他享受了掌声和鲜花后冷静了上去，为一件“小事”感到耿耿于怀：全世界的网民天天要输入验证码接近2亿次，假设每次破费10秒，那么算上去天天要破费50万小时。这个时光假如能利用起来，那将会有多大的力量啊。

　　路易斯将目光投向了旧书摊。信息时期来临之际，良多古旧的册本报纸须要整理成电子版，但是电脑扫描辨识时常常出错，由于这些旧资料常常不可避免地有着字迹模糊、褪色、污损的情况。路易斯比任何人都明白电脑在辨识笔墨上有多笨拙。唯一的方式是人工核对。但这样的任务显然不是一个人或者一个公司能够胜任的，为什么不让网民们来帮忙呢？

　　说干就干的路易斯很快开工了：他扫描了一些过期的旧报纸，将扫描得到的图片在计算机的分析下拆开成单词片段，再将这些单词作为验证码发送给用户。有人要问了，先前的那些验证码，体系是晓得谜底的，但这些册本拆上去的单词，体系本人也搞不明白谜底，那怎么晓得用户的判断成果对不对呢？

　　路易斯用一贯简洁优美的思路解决了这个成绩，并将它起名为reCAPTCHA（意思是“二次验证码”）：他让用户一次性辨识两个单词，其中一个是体系生成的真正的验证码，另外一个是从旧报纸上截上去的单词。假如用户输对了第一个验证码，那么输对第二个单词的几率也很高。

reCAPTCHA（收集图）

　　看了上面这个图，各人是不是感觉到了一点不妥呢？没错，扫描出来的图片和真正的验证码长得那么不像，reCHAPTCHA这个项目又人所皆知，用户一眼就能看出来右边谁人“345”是假的验证码。良多认真的用户会乐意为辨识古册本献出一份力，但并不是每个人都那么乐于助人，那些爱捣蛋的用户很可能会故意输入错误的单词。

　　为了避免歹意捣乱、提高谜底的可信程度，路易斯后来还要对两个验证码停止加工，让它们成为“孪生子”：下面左边的这个morning，就是从旧报纸里截取出来的，是不是跟右边的overlooks长得很像呢？假如用户分不清谁人是真验证码，哪个是“假验证码”，他们会更配合任务。路易斯还将同一个未知的单词输送给多个用户，假如所有用户辨识的成果一致，都是“morning”，那么就认为这个单词被“搞掂”了。

改良后的reCAPTCHA（收集图）

　　用这一个方式，在短短几个月时光内，路易斯让网民们帮忙完成了纽约时期130年来所有旧报纸的存档电子化——这原本可是个让人望而生畏的大工程啊。 reCAPTCHA很快被Google收购，现在已经成为了Google旗下的一项零付费服务：任何人都能够申请将reCAPTCHA用在本人的网站上，你不仅能够为你的网站建立一个避免渣滓信息的堡垒，还让你的用户们得以参与到完善人类电子图书馆的丰功伟业中来。

　　验证码的一直进化

　　我们晓得，验证码实际上就是一种人机大战。随着电脑技巧的飞速发展，有效的图像辨认技巧已经被开发出来了，路易斯在世纪初开发的那种简略验证码在尖端的破解手腕面前，差不多就像是个拄着拐杖、摇摇晃晃的老头，一推就倒了。

　　先不要惊恐，目前大部分网站使用的文本验证码还是有用的；尖端的图像辨认技巧须要破费大批时光款项成本，黑客们是不会用它们来破解你的博客、窥探你中午打算吃什么的。只有那些涉及机密、款项利益的网站，比方网上银行、购物网站等受到了较大的威胁。为了避免财产损失，这些网站纷纷推出了各种进化版的验证码。主流的验证码都是静态图片，有些网站推出了动态的验证码，令呆板人很难捕捉，同时动画效果能够增加网页的美观程度；良多大型的购物网站要求发送手机短信验证码，确保操纵用户是本人；又或者是问用户一个常识性的成绩，比方“牛奶和汽油哪个能够喝？”——总之就是一些呆板不会、但是人类能够容易做到的事。

12306网站的图形验证码（收集图）

　　最近，12306购票网站曾经由于更换了一种“超难”的图形验证码而在各媒体报纸上大出风头。各人都晓得，节日期间的火车票很难买，而众多抢票软件更是火上浇油，令收集购票变得更加艰难、混乱。为了拦截住那些违反公平的抢票软件，12306网站推出了这种让人大呼“坑爹”的验证码体系：体系要求想买票的用户在一堆图片里找出目标物体，比方便利贴、汉堡、玉米等常见事物，虽然良多人在不习惯的情况下觉得有点难，但这对于想钻空子的呆板顺序来说，更是难如上青天。

转载自:https://tech.sina.com.cn/d/v/2015-08-29/doc-ifxhkafe6164564.shtml

声明: 除非转自他站（如有侵权，请联系处理）外，本文采用 BY-NC-SA 协议进行授权 | 智乐兔
转载请注明：转自《是谁计划了让人亦爱亦恨验证码:大家都来当校订》
本文地址：https://www.zhiletu.com/archives-4460.html
关注公众号：