发明名称 | 一种网页URL地址分类识别方法及装置 | ||
摘要 | 本发明公开了一种网页URL地址分类识别方法及装置,用以在尽量减小URL分类所需的数据量的前提下,提高URL分类的准确率以及深度,提高效率。该方法为:解析多个具体相同域名的URL地址,确定所述URL地址包含的主路径以及各级子路径,按照确定的所述主路径以及各级子路径作为各级目录构建目录树;按照所述URL地址包含的全路径将每个所述URL地址划分至所述目录树中相应的目录下;针对所述目录树中的任一级目录,分别确定包含的各URL地址对应的网页中的关键词,确定具有相同的第一关键词的网页与所述目录中的网页总数的比值高于设定阈值时,将所述第一关键词所属的类别确定为所述目录下的各URL地址的类别。 | ||
申请公布号 | CN104750704A | 申请公布日期 | 2015.07.01 |
申请号 | CN201310739676.8 | 申请日期 | 2013.12.26 |
申请人 | 中国移动通信集团河南有限公司 | 发明人 | 崔洪涛;李明;李远;邵杰;黄伟;张杰 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京同达信恒知识产权代理有限公司 11291 | 代理人 | 郭润湘 |
主权项 | 一种网页统一资源定位符URL地址分类识别方法,其特征在于,包括:解析多个具体相同域名的URL地址,确定所述URL地址包含的主路径以及各级子路径,按照确定的所述主路径以及各级子路径作为各级目录构建目录树;按照所述URL地址包含的全路径将每个所述URL地址划分至所述目录树中相应的目录下;针对所述目录树中的任一目录,分别确定包含的各URL地址对应的网页中的关键词,确定具有相同的第一关键词的网页与所述目录中的网页总数的比值高于设定阈值时,将所述第一关键词所属的类别确定为所述目录下的各URL地址的类别。 | ||
地址 | 450008 河南省郑州市经三路48号 |