发明名称 基于Hits算法的Web搜索结果安全性排序方法
摘要 本发明涉及网络安全技术领域,特别是一种基于Hits算法的Web搜索结果安全性排序方法,其特征在于:建立一个恶意特征库F(f1,f2,f3,…,fn),所述恶意特征库包含n种网络病毒、木马、漏洞在网页中出现的特征码,将所述恶意特征库的各特征码fx表示成由m个分量组成的向量形式,即fx=(fx1,fx2,fx3,…,fxm),其中x∈{1,2,…,n},fx∈F,各个分量所占权重用f’x来表示;然后,基于Hits算法,结合向量空间模型和恶意特征库,进行网页搜索结果安全性排序。该方法有利于降低恶意网页在搜索结果中的排序,从而降低访问到不安全网页的概率。
申请公布号 CN102663077A 申请公布日期 2012.09.12
申请号 CN201210095140.2 申请日期 2012.03.31
申请人 福建师范大学 发明人 陈志德;郭扬富;许力
分类号 G06F17/30(2006.01)I;H04L29/06(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 福州元创专利商标代理有限公司 35100 代理人 蔡学俊
主权项 1. 一种基于Hits算法的Web搜索结果安全性排序方法,其特征在于:建立一个恶意特征库<i>F</i> ( <i>f</i><sub>1</sub> , <i>f</i><sub>2</sub> , <i>f</i><sub>3</sub> , … , <i>f</i><sub><i>n</i></sub> ),所述恶意特征库包含<i>n</i>种网络病毒、木马、漏洞在网页中出现的特征码,将所述恶意特征库的各特征码<i>f</i><sub><i>i</i></sub>分别表示成由<i>m</i>个分量组成的向量形式,即<i>f</i><sub><i>i</i></sub> = ( <i>f</i><sub><i>i</i>1</sub> , <i>f</i><sub><i>i</i>2</sub> , <i>f</i><sub><i>i</i>3</sub> , … , <i>f</i><sub><i>im</i></sub> ),其中<i>i</i>∈{1,2,…,<i>n</i>},<i>f</i><sub><i>i</i></sub>∈<i>F</i>;然后,基于Hits算法,按如下步骤进行网页安全性排序:步骤1:将搜索主题提交给基于文本的搜索引擎,从返回结果网页的集合中取前<i>t</i>个网页的集合,记为根集<i>R</i>;向所述根集<i>R</i>中加入被根集<i>R</i>引用的网页和引用根集<i>R</i>的网页,对内在链接和不相关链接进行处理后,将根集<i>R</i>扩展成集合<i>G</i>;以集合<i>G</i>中的Hub网页为顶点集<i>V</i><sub>1</sub>,以Authority网页为顶点集<i>V</i><sub>2</sub>,<i>V</i><sub>1</sub>中的网页到<i>V</i><sub>2</sub>中的网页的超链接为边集<i>E</i>,形成一个二分有向图<i>S </i>= ( <i>V</i><sub>1 </sub>, <i>V</i><sub>2 </sub>, <i>E</i> ),对<i>V</i><sub>1</sub>中任一顶点<i>v</i>,用<i>h</i>(<i>v</i>)表示网页<i>v</i>的Hub值,对<i>V</i><sub>2</sub>中的任一顶点<i>u</i>,用<i>a</i>(<i>u</i>)表示网页<i>u</i>的Authority 值,初始时<i>h</i>(<i>v</i>)=<i>a</i>(<i>u</i>)=1;步骤2:对<i>u </i>执行I操作,修改它的<i>a</i>(<i>u</i>),对<i>v</i>执行O操作,修改它的<i>h</i>(<i>v</i>),I操作、O操作分别为:I操作:<img file="494427DEST_PATH_IMAGE002.GIF" wi="169" he="40" />O操作:<img file="411567DEST_PATH_IMAGE004.GIF" wi="173" he="40" />上述式子中,<img file="191305DEST_PATH_IMAGE006.GIF" wi="33" he="40" />表示历遍<i>V</i><sub>1</sub>中页面并求和,<img file="586514DEST_PATH_IMAGE008.GIF" wi="34" he="40" />表示历遍<i>V</i><sub>2</sub>中页面并求和,<i>Risk</i>(<i>F</i>,<i>u</i>)、<i>Risk</i>(<i>F</i>,<i>v</i>)按如下公式计算:<img file="400886DEST_PATH_IMAGE010.GIF" wi="244" he="97" /><img file="285665DEST_PATH_IMAGE012.GIF" wi="242" he="97" />上述式子中,<i>μ</i><sub><i>i</i></sub>表示所述恶意特征库中第<i>i</i>种特征码的危害因子,<i>μ</i><sub><i>i</i></sub>∈(0,1);所述页面<i>u</i>是文本集合,页面<i>u</i>表示成向量为<i>u</i>(<i>u</i><sub>1</sub>,<i>u</i><sub>2</sub>,<i>u</i><sub>3</sub>,…,<i>u</i><sub><i>p</i></sub>),将页面<i>u</i>的各分量<i>u</i><sub><i>k</i></sub>分别表示成由<i>m</i>个分量组成的向量形式,即<i>u</i><sub><i>k=</i></sub>(<i>u</i><sub><i>k</i>1</sub>,<i>u</i><sub><i>k</i>2</sub>,<i>u</i><sub><i>k</i>3</sub>,…,<i>u</i><sub><i>km</i></sub>),其中<i>k</i>∈{1,2,…,<i> p</i>},<i>u</i><sub><i>k</i></sub>∈<i>u</i>;所述页面<i>v</i>是文本集合,页面<i>v</i>表示成向量为<i>v</i>(<i>v</i><sub>1</sub>,<i>v</i><sub>2</sub>,<i>v</i><sub>3</sub>,…,<i>v</i><sub><i>p</i></sub>),将页面<i>v</i>的各分量<i>v</i><sub><i>k</i></sub>分别表示成由<i>m</i>个分量组成的向量形式,即<i>v</i><sub><i>k=</i></sub>(<i>v</i><sub><i>k</i>1</sub>,<i>v</i><sub><i>k</i>2</sub>,<i>v</i><sub><i>k</i>3</sub>,…,<i>v</i><sub><i>km</i></sub>),其中<i>k</i>∈{1,2,…,<i> p</i>},<i>v</i><sub><i>k</i></sub>∈<i>v</i>;步骤3:按步骤2对顶点集<i>V</i><sub>2</sub>中的所有页面进行一次I操作,对顶点集<i>V</i><sub>1</sub>中的所有页面进行一次O操作;完成后,按如下公式对<i>a</i>(<i>u</i>)、<i>h</i>(<i>v</i>)进行规范化处理:<img file="552699DEST_PATH_IMAGE014.GIF" wi="166" he="45" /><img file="751599DEST_PATH_IMAGE016.GIF" wi="165" he="45" />上述式子中,<i>q</i>表示链入节点的数量;步骤4:重复步骤2、3进行迭代计算,直到<i>a</i>(<i>u</i>)、<i>h</i>(<i>v</i>)收敛;步骤5:根据各页面最后的<i>a</i>(<i>u</i>)值对各页面按安全性高低进行排序。
地址 350007 福建省福州市仓山区上三路8号