钓鱼网页检测国内外研究现状

介于日益猖獗的钓鱼攻击，许多研究学者对攻击形式以及攻击原理都做了细致的分析讨论。目前用于防范钓鱼攻击的方式主要仍为人工方式，但随着钓鱼网站数目的激增，机器识别渐渐展现了其重要性，但是对于一些特殊的钓鱼网站，人工方式仍然是不可替代的。28153
钓鱼攻击从其攻击原理上来分类其属于语义攻击，所以最基础有效的防范措施的还是增强用户的防范意识。目前，许多金融机构和政府都在采取通过通识教育来教用户识别钓鱼诈骗。此外，人工识别与举报在反钓鱼技术的早期也起着重要的作用。以APAC为例,目前其识别并关停钓鱼网站的主要依据及来源仍然为成员举报。此外，知名的钓鱼URL举报判断站点PhishTank也是依靠人工举报。黑名单机制也是依据举报所获得的数据库来判断钓鱼网站和正规网站。今天最普遍采用的反钓鱼技术是基于HTML源代码内容或URL分析技术，即为启发式识别。这种技术的本质为首先提取待检测页面特征，然后使用事先训练好的分类模型对特征计算，计算结果作为判断依据。例如，Chou等人研发的SpoofGuard就是一种非常著名的解决方案。该方案以浏览器插件的形式，对用户访问的页面进行分析，若分析为钓鱼网站，就会对用户发出警告。此外，Zhang[6]等人提出了CANTINA方案。随后Xiang等人又在CANTINA的基础上提出来挖掘页面关键词的方法。在接下来的发展中，Pan[17]等人又提出了利用经典机器学习的理论和特征提取的方法相结合的方案。这种方案主要是基于钓鱼网站和正规网站的DOM属性一般会有明显的差异，由此，我们得出了支持向量机模型（SVM）。Nimeh[17]根据钓鱼网页传播的这一角度，提出了特征提取的方法。这种方法针对于LR,CART,BART,SVM和NNet这751种机器学习在邮件特征分类上的区别。这种方法提高了检测钓鱼网页检测的准确性，扩展了钓鱼网站的特征。然而此方法也有缺点，由于此方法在提取特征值时只使用了单个网页的特征，所以易被欺骗。论文网
此外，还有基于视觉的检测方法，这种方法主要分为三类[17]：基于HTML文本，基于布局，基于图像。不法分子利用了HTML语言的灵活性，可以轻松地从外表上仿冒正规网站，如果是这种钓鱼网站，那么基于HTML的匹配检测法就无法检测出钓鱼网站。后两种分类的检测方法的原理都是来自人的视觉成像。通过计算网页的相似性的方法如Fu等提出的EMD检测法就是基于视觉类似性的原理。钓鱼网页检测国内外研究现状:http://www.751com.cn/yanjiu/lunwen_22904.html