上周和大家分享了文章《基于深度学习的数据防伪》,文章没有比较全面的分析关于数据防伪的问题,所以极小验决定为大家全面的分析一下数据防伪究竟是什么个意思。
说数据防伪那肯定是先有了数据伪造,黑客要进行网络攻击,避免不了的就要伪造许多的数据。不同的攻击需要伪造的数据当然是不同滴,比如黑客伪造数据并携带恶意程序进行SQL注入攻击,还有进行网络身份信息的伪造等。
极验主要面对的便是网络身份信息的伪造。
网络身份信息的伪造主要有两种:一是协议中携带的标识信息的伪造,例如IP地址,网页浏览数据,cookie,访问地址,验证口令等来欺骗网络安全防御机制,实现较为低级的傀儡网络身份伪造。主要是进行一些网络攻击,比如撞库登录,薅羊毛,恶意注册,盗用接口等。
二是伪造姓名,身份证号,电话号码,国籍,银行卡等来以假乱真,在网络上进行一些金融诈骗,洗钱,非法交易等。这一类伪造不仅仅是属于网络安全范畴,更多的还涉及到社会安全,国家安全。
我们主要讨论第一类协议中携带的标识信息的伪造。其主要目的是在网络世界中,把机器程序伪造成一个人,以完成大批量的任务。比如说撞库登录,就需要黑客不断地进行登录尝试,来寻找匹配的用户名和密码,而机器来完成这样的任务基本上是几千次一分钟,效率要比人高出非常多,这也是撞库能够获利的关键。一旦撞库成功,不管是对企业还是对广大的吃瓜群众来说都是有很大危害的。所以识别和拦截大批量傀儡程序也成了我们验证安全,网络安全的一个重要方面。
目前识别伪造的标识信息方法也有很多,比如针对代理IP做黑白名单,这个应该是挺好理解的,就是在不断的网络攻击和破坏中搜集那些代理IP加入到黑名单中,限制这些IP的访问权限。对已有的攻击做标记,就像我们检测病毒一样,已有的病毒就加入到病毒库中,再有相同的病毒进行防御了。还有就是搜集浏览器里面的信息,比如浏览器的历史记录,UA等信息,通过这些来判断是否是伪造身份信息。
但是单项的数据伪造是很容易的,有很多软件都能够帮助攻击者生成相应的互联网访问地址,IP信息,历史浏览数据,UA,验证口令等等。所以即使我们加大了对数据的检测量也不一定能够鉴别出伪造数据。
而极验则是利用深度学习对这些数据间的关系进行模拟,一个正常的用户,他的UA,IP信息,历史数据以及页面行为等数据之间会长时间的符合一定关系。伪造数据容易,但伪造数据之间经过一定逻辑行为以及时间积累后形成的关系就十分困难了。
深度学习技术的出现对这个问题的解决有了极大的帮助,神经网络能够从大量的数据中提炼出关于这些数据之间的关系。就像我们一些经验老道的安全人员也能够通过对这些数据的分析来判断请求是否正常,但是人的精力毕竟是有限的,利用神经网络来做这件事情也就事半功倍了。至于如何用深度学习来实现前面一篇文章中有详细的解释,这里就不多做赘述啦。文章主要对数据防伪做一些补充性的解释。详情 《基于深度学习的数据防伪》。
数据防伪将成为我们验证安全中不可或缺的一部分,同时也将对我们打击黑灰产业提供非常有效的帮助。一旦可以准确的鉴别网络伪造身份信息,进行攻击的拦截和防御都将容易得多。