主权项 |
一种网站分类方法,其特征在于,包括:步骤S101,获取网站的多维属性,利用集合对多维属性进行表示;步骤S102,针对表示多维属性的集合,进行自编码特征学习;步骤S103,利用自编码学习结果,进行网站聚类学习,得到用于进行网站分类的支持向量机SVM;步骤S104,对任意一个未经标注的网站进行分类时,先进行步骤S101和步骤S102,得到与该网站对应的自编码学习结果;然后将与该网站对应的自编码学习结果输入到步骤S103得到的用于进行网站分类的支持向量机SVM中,进行网站分类,得到网站的类别;所述步骤S101具体包括:步骤S1011,提取网站首页超文本标记语言HTML标题、HTML正文和层叠样式表CSS主题色彩;步骤S1012,对所述HTML标题和HTML正文进行分词处理,得到单词向量集合B={w<sub>1</sub>,w<sub>2</sub>,…,w<sub>n</sub>},n为正整数;步骤S1013,对每一个在向量B的单词w<sub>i</sub>,统计其在网页HTML的标签<a>、<h1>‑<h6>、<title>、<em>、<strong>中出现的次数,按出现的次数加权后排名,得到排名后新单词向量集合B’={w’<sub>1</sub>,w’<sub>2</sub>,…,w’<sub>m</sub>};其中i=1,2,……,n;m为正整数,m<=n;步骤S1014,统计所述CSS主题色彩中使用最多的3种颜色类别,得到色彩向量描述集合C,C={c<sub>1</sub>,c<sub>2</sub>,c<sub>3</sub>};步骤S1015,获取属性值,建立属性描述集合S;其中,属性值包括下述中的一项或多项:网站服务器类型、Poweredby信息、脚本语言类型、返回状态码、跳转次数、网站出处、外域个数、内域个数和页面大小;步骤S1016,根据集合B’、C和S,建立网站多维属性样本集合V,V=B’∪C∪S;其中∪表示并集。 |