是谁计划了让人亦爱亦恨验证码:大家都来当校订

    文章来源:蝌蚪五线谱

  说起“验证码”,恐怕大部分人都会流露出不悦的表情。在搜索引擎里输入“验证码” “发现”这两个关键字,搜索页面会弹出成千上万个表达群众不满的成果:“谁发现了万恶的验证码?”“发现验证码的人你出来,我保证不打死你”……

  的发展历史不长,验证码当然也很年轻。

林林总总的验证码(收集图)_meitu_2林林总总的验证码(收集图)

  前验证码时期

  一开始,收集上是没有验证码的。那时想要在论坛上发帖,只需轻轻敲一下回车键。然而,谁人时期却没有各人以为的那么平静,事先的黑客也十分猖狂:他们 编写了一种能够大批、重复编写信息的顺序,假装成人类用户,肆无忌惮地朝收集上倾倒大批的、无意义的“僵尸”信息,渣滓邮件、渣滓广告、渣滓评论到处乱 飞。论坛被灌水,有用的信息很快会被淹没,良多的畸形运营遭到破坏。除此之外,还有数之不尽的顺序呆板人使用一直尝试的方式歹意破解密码、歹意刷票, 从中获取非法的利益。强而有力的顺序呆板人如同霸王龙一样横行霸道,收集世界一片狼藉,眼看着就要失控了。

  其中,受影响最大的当属电子邮件的供给商:他们的用户天天收到数以百计的渣滓邮件轰炸,严重地影响了畸形的任务;更要命的是,这些渣滓邮件还是用他们 的零付费邮箱发出的。他们不可能一一审查邮件,由于那既不尊重隐私,任务量也太大。难道就没有任何手腕约束顺序呆板人了吗?事先最有实力的邮件供给商 Yahoo(雅虎)公司决定下狠劲改善这个成绩。很快,雅虎的负责人联系到了事先卡内基梅陇大学一位21岁的学生,他叫路易斯·冯·安(Luis von Ahn)。

2015年,时年36岁的路易斯(收集图)2015年,时年36岁的路易斯(收集图)

  反图灵测试

  路易斯是一个计算机天才,17岁进入卡内基梅陇大学,在大学时期,他凭借良好的表现获得了导师曼纽尔·布鲁姆(Manuel Blum)的赏识,他的傲人履历也很可能是雅虎向他伸出橄榄枝的原因。

  在研究过顺序呆板人的“任务手法”之后,他给出了一个独特的计划:在用户停止操纵之前,就将那些呆板人从畸形用户里揪出来。各人都晓得图灵测试的目的是将呆板伪造成人类,而路易斯的计划就是“反”过来:通过简略的方式将试图假装成人类的顺序呆板人鉴定出来。

  好了,现在各人来想想,有什么是人类能够容易做到,而呆板不可能的呢?

  数学题?呆板做得比人类出色多了;

  写一篇洋洋洒洒保证书保证“我是人类”?呆板绝对写得又快又好;

  画一幅画?拜托,谁有空每次在论坛发一次贴就画一次画?而且说真的,呆板画画也绝对比人类强;

  晒出本人和电脑屏幕上的信息合影的照片?哪有那么多任务人员有空一个个审核呢。

  路易斯发现,人类能够用肉眼很容易地辨认图片里的笔墨信息,而呆板就不能。事先的计算机辨识技巧还很落后,对于那些镶嵌在图片中的、被歪曲过、污染过 的笔墨无法辨识,而人类只须要稍稍皱眉就能够辨认出来。路易斯在导师布鲁姆的帮助下很快设计了一个顺序,它先是产生一个随机的字符串,比方smwm,然后 对这串字符停止随机的歪曲、重叠、污染,再显示给要停止操纵的用户。只要能够辨认这个变形了的smwm的,就是人类。

这个字符串阅历过歪曲、右侧加光调色的处置(收集图)这个字符串阅历过歪曲、右侧加光调色的处置(收集图)

  这个设计计划后来被命名为“CAPTCHA”,这是“Completely Automated Public Turing test to tell Computers and Humans Apart”首字母的缩写,意思是“全自动区分计算机和人类的图灵测试”,虽然看上去很夸张,但实际上还是挺简略易懂的。它的中文译名就是各人熟知的“验 证码”啦。

  人人都来当校对

  21岁的路易斯·冯·安发现了验证码后真是名利双收,但他享受了掌声和鲜花后冷静了上去,为一件“小事”感到耿耿于怀:全世界的网民天天要输入验证码接近2亿次,假设每次破费10秒,那么算上去天天要破费50万小时。这个时光假如能利用起来,那将会有多大的力量啊。

  路易斯将目光投向了旧书摊。信息时期来临之际,良多古旧的册本报纸须要整理成电子版,但是电脑扫描辨识时常常出错,由于这些旧资料常常不可避免地有着 字迹模糊、褪色、污损的情况。路易斯比任何人都明白电脑在辨识笔墨上有多笨拙。唯一的方式是人工核对。但这样的任务显然不是一个人或者一个公司能够胜任 的,为什么不让网民们来帮忙呢?

  说干就干的路易斯很快开工了:他扫描了一些过期的旧报纸,将扫描得到的图片在计算机的分析下拆开成单词片段,再将这些单词作为验证码发送给用户。有人 要问了,先前的那些验证码,体系是晓得谜底的,但这些册本拆上去的单词,体系本人也搞不明白谜底,那怎么晓得用户的判断成果对不对呢?

  路易斯用一贯简洁优美的思路解决了这个成绩,并将它起名为reCAPTCHA(意思是“二次验证码”):他让用户一次性辨识两个单词,其中一个是体系 生成的真正的验证码,另外一个是从旧报纸上截上去的单词。假如用户输对了第一个验证码,那么输对第二个单词的几率也很高。

reCAPTCHA(收集图)_meitu_3reCAPTCHA(收集图)

  看了上面这个图,各人是不是感觉到了一点不妥呢?没错,扫描出来的图片和真正的验证码长得那么不像,reCHAPTCHA这个又人所皆知,用户一 眼就能看出来右边谁人“345”是假的验证码。良多认真的用户会乐意为辨识古册本献出一份力,但并不是每个人都那么乐于助人,那些爱捣蛋的用户很可能会故 意输入错误的单词。

  为了避免歹意捣乱、提高谜底的可信程度,路易斯后来还要对两个验证码停止加工,让它们成为“孪生子”:下面左边的这个morning,就是从旧报纸里 截取出来的,是不是跟右边的overlooks长得很像呢?假如用户分不清谁人是真验证码,哪个是“假验证码”,他们会更配合任务。路易斯还将同一个未知 的单词输送给多个用户,假如所有用户辨识的成果一致,都是“morning”,那么就认为这个单词被“搞掂”了。

改良后的reCAPTCHA(收集图)改良后的reCAPTCHA(收集图)

  用这一个方式,在短短几个月时光内,路易斯让网民们帮忙完成了纽约时期130年来所有旧报纸的存档电子化——这原本可是个让人望而生畏的大工程啊。 reCAPTCHA很快被Google收购,现在已经成为了Google旗下的一项零付费服务:任何人都能够申请将reCAPTCHA用在本人的上,你 不仅能够为你的建立一个避免渣滓信息的堡垒,还让你的用户们得以参与到完善人类电子图书馆的丰功伟业中来。

  验证码的一直进化

  我们晓得,验证码实际上就是一种人机大战。随着电脑技巧的飞速发展,有效的图像辨认技巧已经被开发出来了,路易斯在世纪初开发的那种简略验证码在尖端的破解手腕面前,差不多就像是个拄着拐杖、摇摇晃晃的老头,一推就倒了。

  先不要惊恐,目前大部分使用的文本验证码还是有用的;尖端的图像辨认技巧须要破费大批时光款项成本,黑客们是不会用它们来破解你的博客、窥探你中 午打算吃什么的。只有那些涉及机密、款项利益的,比方网上银行、购物网站等受到了较大的威胁。为了避免财产损失,这些网站纷纷推出了各种进化版的验证 码。主流的验证码都是静态图片,有些网站推出了动态的验证码,令呆板人很难捕捉,同时动画效果能够增加网页的美观程度;良多大型的购物网站要求发送手机短 信验证码,确保操纵用户是本人;又或者是问用户一个性的成绩,比方“牛奶和汽油哪个能够喝?”——总之就是一些呆板不会、但是人类能够容易做到的事。

12306网站的图形验证码12306网站的图形验证码(收集图)

  最近,12306购票网站曾经由于更换了一种“超难”的图形验证码而在各媒体报纸上大出风头。各人都晓得,节日期间的火车票很难买,而众多抢票软件更 是火上浇油,令收集购票变得更加艰难、混乱。为了拦截住那些违反公平的抢票软件,12306网站推出了这种让人大呼“坑爹”的验证码体系:体系要求想买票 的用户在一堆图片里找出目标物体,比方便利贴、汉堡、玉米等常见事物,虽然良多人在不习惯的情况下觉得有点难,但这对于想钻空子的呆板顺序来说,更是难如上青天。

转载自:https://tech.sina.com.cn/d/v/2015-08-29/doc-ifxhkafe6164564.shtml

声明: 除非转自他站(如有侵权,请联系处理)外,本文采用 BY-NC-SA 协议进行授权 | 智乐兔
转载请注明:转自《是谁计划了让人亦爱亦恨验证码:大家都来当校订
本文地址:https://www.zhiletu.com/archives-4460.html
关注公众号:智乐兔

赞赏

wechat pay微信赞赏alipay pay支付宝赞赏

上一篇
下一篇

相关文章

在线留言

你必须 登录后 才能留言!

在线客服
在线客服 X

售前: 点击这里给我发消息
售后: 点击这里给我发消息

智乐兔官微