发明名称 |
获取截短的网页标题的方法及装置 |
摘要 |
本发明公开了一种获取截短的网页标题的方法及装置。方法包括:获取网页统一资源定位符信息以及该信息映射的待截短网页标题;对待截短网页标题进行处理,只保留能够反映网页内容的部分;所述对待截短网页标题进行处理的方法包括下述方法中的一种或多种的任意组合:对标题做分词处理并去除无意义词;查询预先设置的网页标题匹配库,得到待截短网页统一资源定位符信息对应的匹配规则,根据得到的匹配规则对所述待截短网页标题进行处理,获取截短的网页标题;利用通用规则对标题做截短处理;所述网页标题匹配库包括:网页白名单库、和/或,网页标题模板库、和/或,网页标题前后缀识别库。应用本发明,可以有效提升网页标题的去冗余效果。 |
申请公布号 |
CN105095175A |
申请公布日期 |
2015.11.25 |
申请号 |
CN201410158987.X |
申请日期 |
2014.04.18 |
申请人 |
北京搜狗科技发展有限公司 |
发明人 |
商胜;徐俊 |
分类号 |
G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京华沛德权律师事务所 11302 |
代理人 |
马苗苗 |
主权项 |
一种获取截短的网页标题的方法,包括:获取网页统一资源定位符信息以及该网页统一资源定位符信息映射的待截短网页标题;对待截短网页标题进行处理,只保留能够反映网页内容的部分;所述对待截短网页标题进行处理的方法包括下述方法中的一种或多种的任意组合:对标题做分词处理并去除无意义词;查询预先设置的网页标题匹配库,得到待截短网页统一资源定位符信息对应的匹配规则,根据得到的匹配规则对所述待截短网页标题进行处理,获取截短的网页标题;利用通用规则对标题做截短处理;所述网页标题匹配库包括:网页白名单库、和/或,网页标题模板库、和/或,网页标题前后缀识别库。 |
地址 |
100084 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间 |