发明名称 |
域名分类方法和装置、域名识别方法和系统 |
摘要 |
本发明提供了一种域名分类方法和装置、域名识别方法和系统,该分类方法包括:获取多个客户端的域名访问记录;根据所述域名访问记录生成数据类型与预设无监督特征学算法对应的待训练数据;利用所述预设无监督特征学算法对所述待训练数据进行训练,获取所述域名访问记录中包括的各个域名的无监督特征向量;获取所述各个域名的无监督特征向量的相似度;根据获取的各个无监督特征向量的相似度对与无监督特征向量对应的域名进行聚类,得到多个域名集合,一个域名集合中所有域名属于同一分类。本发明提供的域名分类方法以及利用其进行域名识别的方法不需要人工预先选取大量的样本数据,降低了人工工作量。 |
申请公布号 |
CN104486461A |
申请公布日期 |
2015.04.01 |
申请号 |
CN201410838225.4 |
申请日期 |
2014.12.29 |
申请人 |
北京奇虎科技有限公司;奇智软件(北京)有限公司 |
发明人 |
王占一;张卓;刘博 |
分类号 |
H04L29/12(2006.01)I |
主分类号 |
H04L29/12(2006.01)I |
代理机构 |
北京路浩知识产权代理有限公司 11002 |
代理人 |
李相雨 |
主权项 |
一种域名分类装置,其特征在于,包括:域名获取模块,用于获取多个客户端的域名访问记录;训练数据生成模块,用于根据所述域名获取模块获取到的所述域名访问记录生成预设数据类型的待训练数据,所述预设数据类型与预设无监督特征学习算法对应;第一训练模块,用于利用所述预设无监督特征学习算法对所述训练数据生成模块生成的待训练数据进行训练,获取所述域名访问记录中包括的各个域名的无监督特征向量;相似度获取模块,用于获取所述各个域名的无监督特征向量的相似度;聚类模块,用于根据各个无监督特征向量的相似度对与无监督特征向量对应的域名进行聚类,得到多个域名集合,一个域名集合中所有域名属于同一分类。 |
地址 |
100088 北京市西城区新街口外大街28号D座112室(德胜园区) |