发明名称 由钓鱼网页查找目标网页的方法
摘要 本发明是一种由钓鱼网页查找目标网页的方法,首先从网页文本和网页图片中提取关键词,组成该钓鱼网页的词汇签名,然后在多个搜索引擎上用词汇签名进行检索,综合这些搜索引擎的结果,找出最相近的前K个网页,将这K个网页和钓鱼网页以图片形式保存,提取图像感知哈希序列,最后分别计算这K个网页图片与钓鱼网页图片之间的海明距离,根据距离的大小可以选出该钓鱼网页模仿的一个或者多个合法网页,即目标网页。
申请公布号 CN102629261B 申请公布日期 2014.07.16
申请号 CN201210051171.8 申请日期 2012.03.01
申请人 南京邮电大学 发明人 张卫丰;田先桃;张迎周;周国强;王慕妮;周国富;许碧欢;陆柳敏;顾赛赛
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京经纬专利商标代理有限公司 32200 代理人 叶连生
主权项 一种由钓鱼网页查找目标网页的方法,其特征在于首先从网页标题、主体和网页图片中提取关键词,组成该钓鱼网页的词汇签名;然后在多个搜索引擎上用词汇签名进行检索,综合这些搜索引擎的结果,找出最相近的前K个网页,K为整数;将这K个网页和钓鱼网页以图片形式保存,提取图像感知哈希序列,最后分别计算这K个网页图片与钓鱼网页图片之间海明距离,根据距离的大小选出该钓鱼网页的一个或者多个目标网页;该方法主要包括词汇签名的生成部分、多个搜索引擎检索部分、图像感知哈希序列的生成及匹配部分;词汇签名的生成部分需要的步骤如下:步骤11)分别从网页标题和主体中提取纯文本文字;步骤12)获取网页中的图片,通过光学字符识别OCR技术提取出嵌在图片中的文字;步骤13)综合网页标题、主体和图片中的文字,计算这些文字的词频‑反文档频率TF‑IDF值,由前5个最高TF‑IDF的词构成一个词汇签名;多个搜索引擎检索部分需要的步骤如下:步骤21)将生成的词汇签名分别在N个搜索引擎上进行检索,N为整数;步骤22)找出至少出现在两个搜索引擎结果中的网页,组成一个网页列表;步骤23)由公式(1)、公式(2)、公式(3)计算网页列表中各个网页的相关度;<maths num="0001" id="cmaths0001"><math><![CDATA[<mfenced open='[' close=']'><mtable><mtr><mtd><msub><mi>u</mi><mn>1,1</mn></msub></mtd><mtd><msub><mi>u</mi><mn>2,1</mn></msub></mtd><mtd><mo>&CenterDot;</mo><mo>&CenterDot;</mo></mtd><mtd><mo>&CenterDot;</mo><mo>&CenterDot;</mo></mtd><mtd><msub><mi>u</mi><mrow><mi>N</mi><mo>,</mo><mn>1</mn></mrow></msub></mtd></mtr><mtr><mtd><msub><mi>u</mi><mn>1,2</mn></msub></mtd><mtd><msub><mi>u</mi><mn>2,2</mn></msub></mtd><mtd><mo>&CenterDot;</mo><mo>&CenterDot;</mo></mtd><mtd><mo>&CenterDot;</mo><mo>&CenterDot;</mo></mtd><mtd><mo>&CenterDot;</mo><mo>&CenterDot;</mo></mtd></mtr><mtr><mtd><mo>&CenterDot;</mo><mo>&CenterDot;</mo></mtd><mtd><mo>&CenterDot;</mo><mo>&CenterDot;</mo></mtd><mtd><mo>&CenterDot;</mo><mo>&CenterDot;</mo></mtd><mtd><mo>&CenterDot;</mo><mo>&CenterDot;</mo></mtd><mtd><mo>&CenterDot;</mo><mo>&CenterDot;</mo></mtd></mtr><mtr><mtd><mo>&CenterDot;</mo><mo>&CenterDot;</mo></mtd><mtd><mo>&CenterDot;</mo><mo>&CenterDot;</mo></mtd><mtd><mo>&CenterDot;</mo><mo>&CenterDot;</mo></mtd><mtd><mo>&CenterDot;</mo><mo>&CenterDot;</mo></mtd><mtd><mo>&CenterDot;</mo><mo>&CenterDot;</mo></mtd></mtr><mtr><mtd><msub><mi>u</mi><mrow><mn>1</mn><mo>,</mo><msub><mi>N</mi><mi>r</mi></msub></mrow></msub></mtd><mtd><msub><mi>u</mi><mrow><mn>2</mn><mo>,</mo><msub><mi>N</mi><mi>r</mi></msub></mrow></msub></mtd><mtd><mo>&CenterDot;</mo><mo>&CenterDot;</mo></mtd><mtd><mo>&CenterDot;</mo><mo>&CenterDot;</mo></mtd><mtd><msub><mi>u</mi><msub><mrow><mi>N</mi><mo>,</mo><mi>N</mi></mrow><mi>r</mi></msub></msub></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000425220440000011.GIF" wi="757" he="511" /></maths>   公式(1)其中,u<sub>i,j</sub>表示第i个搜索引擎的检索结果中排名为j的网址,i=1,2,......,N,j=1,2,......,N<sub>r</sub>,N与N<sub>r</sub>均为整数;<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>W</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mfrac><mrow><msub><mi>N</mi><mi>r</mi></msub><mo>-</mo><mrow><mo>(</mo><msub><mi>R</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow><msub><mi>N</mi><mi>r</mi></msub></mfrac></mtd><mtd><msub><mi>u</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>&Element;</mo><mo>{</mo><msub><mi>u</mi><mi>p</mi></msub><mo>|</mo><mi>p</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>M</mi><mo>}</mo></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mi>else</mi></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000425220440000021.GIF" wi="1021" he="215" /></maths>   公式(2)其中,W<sub>i,j</sub>表示第i个搜索引擎中的排名为j的相关度;N<sub>r</sub>表示一个搜索引擎所取的搜索结果总数;R<sub>i,j</sub>表示第i个搜索引擎中的第j个结果的排名为j,R<sub>i,j</sub>=j;u<sub>i,j</sub>表示第i个搜索引擎的检索结果中排名为j的网址,如果u<sub>i,j</sub>只在一个搜索引擎中出现,那么W<sub>i,j</sub>=0;u<sub>p</sub>表示至少出现在两个搜索引擎结果中的网址,p=1,2,......,M,M为整数且M<N*N<sub>r</sub>;<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mfenced open='' close=''><mtable><mtr><mtd><msub><mi>S</mi><mi>p</mi></msub><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>N</mi><mi>r</mi></msub></munderover><msub><mi>W</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub></mtd></mtr><mtr><mtd><mrow><mo>(</mo><msub><mi>u</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><msub><mi>u</mi><mi>p</mi></msub><mo>)</mo></mrow></mtd></mtr></mtable></mfenced><mo>,</mo><mi>p</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>M</mi></mrow>]]></math><img file="FDA0000425220440000022.GIF" wi="791" he="197" /></maths>   公式(3)其中,S<sub>p</sub>表示u<sub>p</sub>在N个搜索引擎中的相关度之和;u<sub>p</sub>表示至少出现在两个搜索引擎结果中的网址,p=1,2,......,M,M为整数且M<N*N<sub>r</sub>;u<sub>i,j</sub>表示第i个搜索引擎的搜索结果中排名为j的网址,如果u<sub>i,j</sub>只在一个搜索引擎中出现,那么W<sub>i,j</sub>=0;W<sub>i,j</sub>表示第i个搜索引擎中的排名为j的相关度,N与N<sub>r</sub>均为整数;步骤24)由公式(3)和公式(4)计算出前K个相关度高的网页,认为这K个网页与该钓鱼网页最相关,作为该钓鱼网页的候选目标网页,K为不大于N*N<sub>r</sub>的整数;<maths num="0004" id="cmaths0004"><math><![CDATA[<mfenced open='' close=''><mtable><mtr><mtd><msub><mi>SS</mi><mi>p</mi></msub><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>N</mi><mi>r</mi></msub></munderover><msub><mi>R</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub></mtd></mtr><mtr><mtd><mrow><mo>(</mo><msub><mi>u</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><msub><mi>u</mi><mi>p</mi></msub><mo>)</mo></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000425220440000023.GIF" wi="314" he="189" /></maths>     公式(4)其中,SS<sub>p</sub>表示u<sub>p</sub>在N个搜索引擎中的排名之和;u<sub>p</sub>表示至少出现在两个搜索引擎结果中的网页,p=1,2,......,M,M<N*N<sub>r</sub>;u<sub>i,j</sub>表示第i个搜索引擎的搜索结果中排名为j的网址,R<sub>i,j</sub>表示第i个搜索引擎中的第j个结果的排名为j,R<sub>i,j</sub>=j;图像感知哈希序列的生成及匹配部分需要的步骤如下:步骤31)对图片进行规格化处理,将图片统一变为具有255阶的灰度图像,并用双线性插值的方法将分辨率统一变为m*m,m为8的整数倍;步骤32)将m*m的图片分成8*8的小块;步骤33)对每一小块进行离散余弦变换,对于每一小块,保留1个直流分量,9个交流分量,其余的将其置为0;步骤34)用视觉模型对新生成的离散余弦系数矩阵进行处理,去掉信息中的冗余数据,来提高图像压缩的效率;步骤35)用逻辑斯谛Logistic方程作为混沌序列发生器进行加密,由一个密钥生成一个加密矩阵,用此矩阵对离散余弦变换系数矩阵进行加密;步骤36)将得到的浮点型数据通过量化处理变为二值数据,减少冗余;步骤37)用哈夫曼压缩编码进行压缩编码,得到最终的哈希序列;步骤38)分别计算钓鱼网页图片的哈希序列和这K个候选网页图片的哈希序列之间的海明距离,选择距离最小的前L个网页为该钓鱼网页模仿的合法网页,L为不大于K的整数。
地址 210003 江苏省南京市鼓楼区新模范马路66号