发明名称 基于知识网络的文本标引系统及其方法
摘要 本发明公开了一种基于知识网络的文本标引系统及其方法。该文本标引系统包括单文本特征提取单元、多文本词关系提取单元、知识树生成单元、知识树应用单元以及知识库存储单元。对于输入文本标引系统的文本,首先进行分词,获取文本中的文本特征词;根据文本特征词所对应的知识树的节点位置,推演出该文本对应的类别词TAG;在TAG的基础上,通过判别式模型对TAG的合法性进行判定,由此提炼出可靠的TAG词集,再通过可靠的TAG词集重新定位文本特征词词集,形成可靠的文本特征词词集。本发明使内容词提取、类别标注和短语的提取一体化,因此提取的效果能够互相促进;各个词的语义通过知识网络的节点得以表现,从而减少歧义的发生。
申请公布号 CN102207945B 申请公布日期 2013.10.23
申请号 CN201010168526.2 申请日期 2010.05.11
申请人 天津海量信息技术有限公司 发明人 张伟伟;张旭成;孙威;宋传宝;陶鹏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京汲智翼成知识产权代理事务所(普通合伙) 11381 代理人 陈曦
主权项 一种基于知识网络的文本标引系统,其特征在于:所述文本标引系统包括单文本特征提取单元、多文本词关系提取单元、知识树生成单元、知识树应用单元以及知识库存储单元;其中,所述单文本特征提取单元接收非结构化的文档,提取文档中的内容关键词并送入所述多文本词关系提取单元;所述多文本词关系提取单元包括针对语义网络的关系挖掘模块、词间网络关系数据模块和词与类别词间关系数据模块,其中该关系挖掘模块一方面连接所述单文本特征提取单元中的关键词提取模块,另一方面分别连接词间网络关系数据模块和词与类别词间关系数据模块;所述知识树生成单元包括网页结构化信息模块、知识树初始化模块、属性存储模块、知识树存储模块、知识树操作模型和知识树运营平台,所述网页结构化信息模块连接所述知识树初始化模块,所述知识树初始化模块连接所述知识树存储模块,所述属性存储模块也连接所述知识树存储模块,所述知识树存储模块和所述知识树运营平台分别与所述知识树操作模型进行双向的信息交互;所述知识树操作模型分别与所述多文本词关系提取单元中的词间网络关系数据模块和词与类别词间关系数据模块进行连接;所述知识库存储单元分别与所述知识树操作模型和所述单文本特征提取单元进行连接,用于提供分类用知识库,所述知识树存储模块将相关的应用导出至所述知识树应用单元。
地址 300384 天津市华苑产业区榕苑路1号B北322-323室