基于深度学习的钓鱼网页检测方法研究

发布时间:2024-02-19 11:56
  随着信息技术的迅速发展,互联网已成为人们日常生活的重要组成部分。与此同时,网络安全问题也层出不穷。网络钓鱼为其中问题之一,其通过欺骗用户以盗取敏感信息,实现钓鱼攻击,造成用户经济损失。网络钓鱼已经严重威胁到了网络安全,如何有效遏制网络钓鱼攻击成为网络安全领域的重要研究任务。针对已有网页特征不能有效检测出新型钓鱼网页以及模型计算复杂问题,提出一种基于新特征合成及主辅模型的钓鱼网页检测算法。算法从网页URL(Uniform Resource Locator)及HTML(HyperText Markup Language)源码中提取了 39种特征,包括两种新型特征来检测钓鱼网页。同时根据特征重要程度构建了主要特征和辅助特征集合,并且构造MACB(Main-Auxiliary-CNN-BiLSTM)主辅模型对主要特征和辅助特征进行处理,以此降低模型计算复杂度,提高对未知网页判别效率。实验结果表明,所提算法有更好的检测效率以及检测准确度。针对传统钓鱼网页检测方法中手动特征工程困难以及无法处理隐含抽象特征问题,提出一种基于表征学习的钓鱼网页检测算法。算法将网页解析为URL、文档对象模型(Docum...

【文章页数】:74 页

【学位级别】:硕士

【部分图文】:

图4.6钓鱼网页示例

图4.6钓鱼网页示例

4基于表征学习的钓鱼网页检测37样,将“https://www.google.com”分割得到的单词进行编码并转换为one-hot编码矩阵,然后表征到低维向量空间,过程如图4.5所示。URL单词矩阵表示0.51455805,0.61036707,0.94602879,0.1377....


图4.7网页标签实例

图4.7网页标签实例

4基于表征学习的钓鱼网页检测39HTML文本内容,但本质结构却会有很大差异。HTML网页的主要组成部分为文本内容、标签以及组件信息,其中文本内容负责网页信息的展示,标签则为所展示网页内容的控制符号。将HTML源码进行解析,得到网页标签信息,可将其构造成HTML网页DOM树型结构。....


图4.11URL字符串TSNE可视化

图4.11URL字符串TSNE可视化

西安科技大学全日制工程硕士学位论文48从图4.10可以看出,当URL字符串、DOM结构以及HTML文本内容均表示为128维向量时,MICBA模型在Accuracy和F1优于其他向量维度表示,DOM结构以和HTML文本内容在Precision更优,URL字符串和DOM结构的TPR效....


图4.12DOM结构TSNE可视化

图4.12DOM结构TSNE可视化

4基于表征学习的钓鱼网页检测49FPR上有着更好的结果。②DOM结构图4.12为DOM树结构向量化映射在二维平面上,可以发现head标签跟body距离更近,tr和td为表格标签也聚集在一起。这样证明网页DOM树结构包含着深层次语义特征信息,能够支持采用表征学习技术对其进行表示。图....



本文编号:3902650

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3902650.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户b1c96***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]