主权项 |
一种基于空间布局的钓鱼网页检测方法,其特征在于:采用用户界面获取用户输入并将结果反馈回用户,采用控制模块调度功能模块检测钓鱼网站,所述功能模块包括布局特征抽取模块、空间数据库模块、机器学习匹配模块;采用所述的布局特征抽取模块抽取块状网页布局特征,该布局特征在训练阶段送交空间数据库模块建立索引或进行查询,在钓鱼网页检测阶段该布局特征抽取模块抽取的布局特征送至空间数据库模块查询相似特征;采用所述的空间数据库模块在训练阶段对数据特征建立空间索引,在钓鱼网页检测阶段进行相似特征的快速查询,查询所得相似特征交给机器学习匹配模块进行识别;采用所述的机器学习匹配模块在训练阶段接收布局特征抽取模块传来的特征数据进行训练,优化网页相似性阀值的参数;所述基于空间布局的钓鱼网页检测方法,进一步包括:步骤1)训练阶段数据准备:采集至少100个可能被钓鱼网页模仿的正规网站页面,并抽取出布局特征组织成样本数据;将所有样本数据的布局特征插入空间数据库;采集至少100个钓鱼网站页面以及100个普通网页,并抽取特征组织成测试数据;所述布局特征包括:DOM节点的高度,表示浏览器引擎解析了网页的HTML源代码,css源代码以及javascript源代码以后所得网页元素在垂直方向上象素点个数,DOM节点的宽度,表示浏览器引擎解析了网页的HTML源代码,css源代码以及javascript源代码以后所得网页元素在水平方向上象素点个数,DOM节点的X坐标,表示浏览器引擎解析了网页的HTML源代码,css源代码以及javascript源代码以后所得网页元素的最左上角象素点相对于(0,0)坐标在水平方向上的距离,其中距离为1表示相差一个象素点,设Web浏览器显示区域最左上角的象素点坐标为(0,0),DOM节点的Y坐标,表示浏览器引擎解析了网页的HTML源代码,css源代码以及javascript源代码以后所得网页元素的最左上角象素点相对于(0,0)坐标在垂直方向上的距离,其中距离为1表示相差一个象素点,设Web浏览器显示区域最左上角的象素点坐标为(0,0),步骤2)测试数据集的标定:将测试数据中的所有普通网页标注为“false”,表示非钓鱼网页;再将测试数据中的所有钓鱼网页标注为“true”,表示钓鱼网页;步骤3)对所有测试网页的特征在空间数据库中查找相似的特征,并统计找到每一个测试网页在库中最相似的网页,计算它们的相似度作为测试网页与库的相似度;步骤4)将所有测试网页的标注以及测试网页与库的相似度送入机器学习匹配模块,遍历所有可能的相似度阀值,找到一个值T使得相似度大于T的钓鱼网页数量与相似度小于T的钓鱼网页数量差值最大,T作为钓鱼网页相似度阀值;步骤5)对疑似钓鱼网页的检测过程:对可疑网页采集布局特征;用可疑网页的特征在空间数据库中查找相似的特征,并统计找到可疑网页在库中最相似的网页,计算它们的相似度作为可疑网页与库的相似度;将待可疑网页的与库的相似度送入训练好的机器学习匹配模块进行预测,预测所得结果作为本方案最终的钓鱼网站检测结果。 |