发明名称 |
具有报错特征的网页识别方法和装置 |
摘要 |
本发明公开了一种具有报错特征的网页识别方法和装置,其中,方法包括:将多个网页进行聚类,得到一个或多个网页集合;判断网页集合中各网页内容是否都包含预设的否定词,将网页集合中的各网页内容都包含否定词的网页集合作为待验证报错网页集合;提取待验证报错网页集合的一个或多个属性特征,根据属性特征验证待验证报错网页集合得到报错网页集合,并提取报错网页集合的相关信息;根据报错网页集合识别报错网页。根据该方案,无需结合每个页面和其特定的报错句子,效率更高,并且,通过实时地自动挖掘生成报错网页集合,并且对网页报错词句的变化不敏感,降低了识别的滞后性。 |
申请公布号 |
CN103870590B |
申请公布日期 |
2017.04.12 |
申请号 |
CN201410122361.3 |
申请日期 |
2014.03.28 |
申请人 |
北京奇虎科技有限公司;奇智软件(北京)有限公司 |
发明人 |
王智广 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京市浩天知识产权代理事务所(普通合伙) 11276 |
代理人 |
宋菲;刘云贵 |
主权项 |
一种具有报错特征的网页识别方法,包括:将多个网页进行聚类,得到一个或多个网页集合;判断所述网页集合中各网页内容是否都包含预设的否定词,将所述网页集合中的各网页内容都包含所述否定词的网页集合作为待验证报错网页集合;提取所述待验证报错网页集合的一个或多个属性特征,根据所述属性特征验证所述待验证报错网页集合得到报错网页集合;提取所述报错网页集合的相关信息并根据所述报错网页集合的相关信息识别报错网页。 |
地址 |
100088 北京市西城区新街口外大街28号D座112室(德胜园区) |