发明名称 |
一种基于网站首页信息获取组织机构名简称的方法及系统 |
摘要 |
本发明公开了一种基于网站首页信息获取组织机构名简称的方法及系统。该方法利用的是组织机构网站首页信息进行简称获取,能够有针对性的、高效的获取到相关组织机构的惯用简称;能够在不使用锚文本信息的情况下获取到组织机构名的简称,是对使用锚文本确定机构名简称的方法的补充;并且能够计算简称和全称之间的相似度,在简称获取方面有较高的准确率。 |
申请公布号 |
CN105956192A |
申请公布日期 |
2016.09.21 |
申请号 |
CN201610424303.5 |
申请日期 |
2016.06.15 |
申请人 |
中国互联网络信息中心 |
发明人 |
李晓东;张俊玲;耿光刚;延志伟;陈勇 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京君尚知识产权代理事务所(普通合伙) 11200 |
代理人 |
冯艺东 |
主权项 |
一种基于网站首页信息获取组织机构名简称的方法,包括以下步骤:(1)根据域名地址获取到组织机构网站首页的源代码,从源代码中提取出该网站对应的组织机构全称;(2)去除组织机构网站首页源代码中的所有HTML标签,保留全部的文本信息;(3)从上述文本信息中提取出每个特征词之前或之后的字符串;(4)从每个提取到的字符串中过滤掉未在组织机构全称中出现的字符,将过滤后不为空的字符串保存于候选简称集合;(5)计算候选简称集合中每个候选简称与组织机构全称的相似度;(6)从候选简称中根据相似度选取组织机构的简称。 |
地址 |
100190 北京市海淀区中关村南四街四号1号楼 |