发明名称 |
一种机构别称的获取方法和装置 |
摘要 |
本发明提供了一种机构别称的获取方法和装置,所述方法包括:获取互联网中各网页页面对应的站点首页,利用所述站点首页提取各站点相对应的机构全称;获取互联网中各网页页面包含的链接信息及对应的锚文本;利用预先构建的机构名称词典或者预设的语义规则,将能够与所述机构名称词典相匹配或满足所述语义规则的锚文本识别为机构名称;将具有相同链接信息的所述机构名称与机构全称相关联,并将满足预设要求的机构名称识别为机构别称。相较于现有技术,本发明能自动对全网中网页信息进行挖掘,建立组织机构的别称与全称之间的对应关系,节省人力成本,提高准确率和召回率。 |
申请公布号 |
CN102880647A |
申请公布日期 |
2013.01.16 |
申请号 |
CN201210306512.1 |
申请日期 |
2012.08.24 |
申请人 |
北京百度网讯科技有限公司 |
发明人 |
王松 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳市威世博知识产权代理事务所(普通合伙) 44280 |
代理人 |
何青瓦;李庆波 |
主权项 |
一种机构别称的获取方法,其特征在于,包括:获取互联网中各网页页面对应的站点首页,利用所述站点首页提取各站点相对应的机构全称;获取互联网中各网页页面包含的链接信息及对应的锚文本;利用预先构建的机构名称词典或者预设的语义规则,将能够与所述机构名称词典相匹配或满足所述语义规则的锚文本识别为机构名称;将具有相同链接信息的所述机构名称与机构全称相关联,并将满足预设要求的机构名称识别为机构别称。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦2层 |