发明名称 |
一种词条的获取方法和装置 |
摘要 |
本发明提供了一种词条的获取方法和装置,其中,该方法包括:获取词条库中同一分类的已有词条集合;利用所获取的已有词条集合进行搜索,得到包含所述已有词条的锚文本,并记录所述已有词条的锚文本所在的网页位置;根据所记录的网页位置,在相应的位置提取与所述已有词条的锚文本之间的上下文距离满足预设要求的锚文本。本发明提供的获取方法和装置,利用已有词库挖掘实体词条,可指导用户创建新词,解决百科数据库中实体词条收录不足的问题,便于实现更有效的知识搜索。 |
申请公布号 |
CN103425660A |
申请公布日期 |
2013.12.04 |
申请号 |
CN201210151282.6 |
申请日期 |
2012.05.15 |
申请人 |
北京百度网讯科技有限公司 |
发明人 |
李永强 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京鸿德海业知识产权代理事务所(普通合伙) 11412 |
代理人 |
袁媛 |
主权项 |
一种词条的获取方法,其特征在于,包括:S1、获取词条库中同一分类的已有词条集合;S2、利用所获取的已有词条集合进行搜索,得到包含所述已有词条的锚文本,并记录所述已有词条的锚文本所在的网页位置;S3、根据所记录的网页位置,在相应的位置提取与所述已有词条的锚文本之间的上下文距离满足预设要求的锚文本。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦2层 |