发明名称 |
官方网站确定方法及系统 |
摘要 |
本发明公开了一种官方网站确定方法及系统,其中方法包括:扫描链接库,提取包含特征文本内容的链接;将所获取的链接按照各链接所对应的域名进行聚类;从聚类后的域名中筛选符合预设条件的域名确定为官方网站;系统包括链接库扫描单元,适于扫描链接库,提取包含特征文本内容的链接;链接聚类单元,适于将所提取的链接按照链接所对应的域名进行聚类;筛选判定单元,适于从聚类后的域名中筛选符合预设条件的域名,确定为官方网站。本发明的官方网站确定方法及系统能够主动识别官方网站,整个过程自动、高效。 |
申请公布号 |
CN104933178A |
申请公布日期 |
2015.09.23 |
申请号 |
CN201510378418.0 |
申请日期 |
2015.07.01 |
申请人 |
北京奇虎科技有限公司;奇智软件(北京)有限公司 |
发明人 |
付通敏 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京商专永信知识产权代理事务所(普通合伙) 11400 |
代理人 |
方挺;黄谦 |
主权项 |
一种官方网站确定方法,包括如下步骤:扫描链接库,提取包含特征文本内容的链接;将所提取的链接按照链接所对应的域名进行聚类;从聚类后的域名中筛选符合预设条件的域名,确定为官方网站。 |
地址 |
100088 北京市西城区新街口外大街28号D座112室(德胜园区) |