发明名称 汉语语意数据智能识别系统及方法
摘要 本发明公开一种汉语语意数据智能识别系统及方法,其特征在于,该发明利用基础内核对外部数据库中的语意数据表达自动探索、导入并预处理;利用分析器对汉语语意数据进行有效切分;利用标注器对语意数据切分单词集进行词性标注;利用减噪器对语意数据进行减噪处理;利用过滤器过滤汉语语意表达中的非关键词性;利用确认器锁定表达中的准确语意;最后利用基础内核向外部数据库进行反馈。本发明提供一种适用于企业、、行业、以及电子商务所迫切需要的高效、低成本、高可用性,可运行在任何中文数据环境下的终端产品的汉语语意数据智能识别系统及方法。
申请公布号 CN1588357A 申请公布日期 2005.03.02
申请号 CN200410056805.4 申请日期 2004.08.20
申请人 北京慧讯信息技术有限公司 发明人 孙晓红;杨肖;张世韵
分类号 G06F17/30;G06F17/20 主分类号 G06F17/30
代理机构 北京中海智圣专利商标代理事务所 代理人 徐金伟
主权项 1.一种汉语语意数据智能识别系统,该系统是一种在互联网、局域网和广域网环境中,具有开放性、自主化和智能化的语意数据探索、语意分析、词性标注、数据减噪、词性过滤、关键词确认能力的跨网络、跨平台、跨数据库的汉语语意数据集成系统,其特征在于,该系统包括:一个实现了过程管理和数据流管理的基础内核,该内核提供上述系统在汉语语意数据识别处理中的算法、规则、模型、底层调用和设备管理;一个连接到上述基础内核的分析器,该分析器实现语意数据词法分析和切分处理;一个连接到上述基础内核的标注器,该标注器实现语意数据单词集的词性标注处理;一个连接到上述基础内核的减噪器,该减噪器实现搜索单词集并自动删除语意数据中无相关辅助描述的信息;一个连接到上述基础内核的过滤器,该过滤器实现语意识别处理中的数据清洗及词性过滤;一个连接上述基础内核的确认器,该确认器根据语意字典库,针对过滤器的输出结果,即关键词集进行最终确认处理,用规范用词替换语意数据中的汉语不规范用法,达到语意表达准确识别目的;系统中预置独立的语料字典及关键词字典,语料字典是构建在汉语词典基础上的专业字典,收集语意描述过程中的各种缩写及方言;关键词字典是语意表达确认的主要依据。
地址 100094北京市海淀区上地中关村软件园孵化器大厦1号楼C座3层