发明名称 一种网站分类方法
摘要 本发明公开了一种网站分类方法,包括:获取网站的多维属性,利用集合对多维属性进行表示;针对表示多维属性的集合,进行自编码特征学;利用自编码学结果,进行网站聚类学,得到用于进行网站分类的支持向量机SVM;步骤S104,对任意一个未经标注的网站进行分类时,先进行步骤S101和步骤S102,得到与该网站对应的自编码学结果;然后将该结构输入到步骤S103得到的SVM中,进行网站分类,得到网站的类别。本发明的网站分类方法能高效准确的按照行业类别对网站进行分类,并且能快速侦测具有恶意特征的钓鱼网页;采用多维属性描述的方式,增加系统的便利性与通用性;且系统具有极强的稳定性。
申请公布号 CN103605794B 申请公布日期 2017.02.15
申请号 CN201310651985.X 申请日期 2013.12.05
申请人 国家计算机网络与信息安全管理中心 发明人 胡俊;王明华;云晓春;李佳;贺敏;纪玉春;何能强;高胜;朱天
分类号 G06F17/30(2006.01)I;G06N3/02(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 工业和信息化部电子专利中心 11010 代理人 田俊峰
主权项 一种网站分类方法,其特征在于,包括:步骤S101,获取网站的多维属性,利用集合对多维属性进行表示;步骤S102,针对表示多维属性的集合,进行自编码特征学习;步骤S103,利用自编码学习结果,进行网站聚类学习,得到用于进行网站分类的支持向量机SVM;步骤S104,对任意一个未经标注的网站进行分类时,先进行步骤S101和步骤S102,得到与该网站对应的自编码学习结果;然后将与该网站对应的自编码学习结果输入到步骤S103得到的用于进行网站分类的支持向量机SVM中,进行网站分类,得到网站的类别;所述步骤S101具体包括:步骤S1011,提取网站首页超文本标记语言HTML标题、HTML正文和层叠样式表CSS主题色彩;步骤S1012,对所述HTML标题和HTML正文进行分词处理,得到单词向量集合B={w<sub>1</sub>,w<sub>2</sub>,…,w<sub>n</sub>},n为正整数;步骤S1013,对每一个在向量B的单词w<sub>i</sub>,统计其在网页HTML的标签&lt;a&gt;、&lt;h1&gt;‑&lt;h6&gt;、&lt;title&gt;、&lt;em&gt;、&lt;strong&gt;中出现的次数,按出现的次数加权后排名,得到排名后新单词向量集合B’={w’<sub>1</sub>,w’<sub>2</sub>,…,w’<sub>m</sub>};其中i=1,2,……,n;m为正整数,m&lt;=n;步骤S1014,统计所述CSS主题色彩中使用最多的3种颜色类别,得到色彩向量描述集合C,C={c<sub>1</sub>,c<sub>2</sub>,c<sub>3</sub>};步骤S1015,获取属性值,建立属性描述集合S;其中,属性值包括下述中的一项或多项:网站服务器类型、Poweredby信息、脚本语言类型、返回状态码、跳转次数、网站出处、外域个数、内域个数和页面大小;步骤S1016,根据集合B’、C和S,建立网站多维属性样本集合V,V=B’∪C∪S;其中∪表示并集。
地址 100029 北京市朝阳区裕民路甲3号