发明名称 |
一种面向在线百科的实体属性抽取方法及系统 |
摘要 |
本发明提供一种面向在线百科的实体属性抽取方法及系统,该方法包括:在待抽取的在线百科网页文本集合T中选择一个页面,抽取该页面的实体属性表达规则,得到当前规则集合。该方法还包括使用当前规则集合对所述待抽取的在线百科网页文本集合T进行实体属性抽取,并且根据抽取得到的实体属性抽取T的实体属性表达规则,用抽取得到的规则集合作为当前规则集合并重复这一过程k次,得到最终规则集合。使用所述最终规则集合对T进行实体属性抽取。本发明提供的实体属性抽取方法能够适应文本结构的变化,适用于各种在线百科,具有召回率高并且准确率高的效果。 |
申请公布号 |
CN103853823A |
申请公布日期 |
2014.06.11 |
申请号 |
CN201410065743.7 |
申请日期 |
2014.02.26 |
申请人 |
中国科学院计算技术研究所 |
发明人 |
程学旗;贾岩涛;张泽慧;王元卓;冯凯;熊锦华;许洪波 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京泛华伟业知识产权代理有限公司 11280 |
代理人 |
王勇;李科 |
主权项 |
一种面向在线百科的实体属性抽取方法,包括:步骤1)、在待抽取的在线百科网页文本集合T中选择一个页面,抽取该页面的实体属性表达规则,得到当前规则集合;步骤2)、使用当前规则集合对所述待抽取的在线百科网页文本集合T进行实体属性抽取,并且根据抽取得到的实体属性抽取T的实体属性表达规则,用抽取得到的规则集合作为当前规则集合并重复这一过程k次,得到最终规则集合;其中k为非负整数;步骤3)、使用所述最终规则集合对T进行实体属性抽取。 |
地址 |
100190 北京市海淀区中关村科学院南路6号 |