发明名称 一种基于短文本评论的知识库构建方法
摘要 本发明的提出了一种基于短文本评论的知识库的构建方法。本发明属于自然语言处理领域。目的是为短文本分析提供相关世界知识,克服现有的短文本分析的不足。实现短文本分析统计分析和语法规则的高度结合。通过构建相关评论的知识库,获得相关评论领域的相关特征词,特征词搭配,评价词及评分,程度副词及评分。通过构建相关评论的知识库可以短文本分析中利用评论知识库进行舆情分析,情感分析,信息抽取,提高相关工作的准确率和效率。
申请公布号 CN103886053A 申请公布日期 2014.06.25
申请号 CN201410093764.X 申请日期 2014.03.13
申请人 电子科技大学 发明人 秦志光;周尔强;罗熹
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种基于短文本评论知识库的构建方法主要由以下特征构成:—爬虫模块。主要用于爬取相关的短文本评论数据。短文本评论数据主要由两部分构成,第一部分为评论的相关数据,第二部分为评论的相关特征词。—数据预处理模块。主要用于构造短文本评论数据,以及分词字典。短文本评论数据处理主要包括分段模块,分为长句子模块,分为短句子模块,以及运用评论相关词构造分词字典模块。—分词以及词性标注模块。主要用于下一步构造相关知识库提供词性标签序列。相应的标签序列使用中科院ICTCLAS的标注分词标注,来进行说明。—评论相关特征词构造模块。用于构造特征词表。特征词主要由两部分构成第一部分由相关特征词构成比如具体的菜名(回锅肉),商品名(电脑桌)等等。第二部分是由评论涉及的方面构成,如环境,装修,售后等等以及上述词的近义词构成。—搭配匹配模块。主要用于寻找相关特征词的搭配。主要是名词以及具有名词属性的词属性标签为“/n”或者“/vn”,对于特征词的搭配。如跟菜名的搭配可以是不错,不能是耐用。匹配主要包括特征名词与形容词,特征名词与动词,特征名词与状态词,特征名词与常用习语,特征名词与名词。在获得相应的匹配后存储进知识库中。—评价词以及程度副词构建模块。主要用于寻找评价词,以及评价词的评分等级,程度副词的评分等级。完成后将评价词,评价词评分以及程度副词评分加入知识库中。—知识库模块。主要用来存储相关特征词,相关特征词搭配,评价词,评价词评分,程度副词,程度副词评分。
地址 611731 四川省成都市高新西区西源大道2006号