发明名称 |
基于中文短语串的细粒度主题信息抽取方法 |
摘要 |
本发明提出了一种基于中文短语串的细粒度主题信息抽取方法,首先对输入的原始文本集进行预处理,主要分为中文分词、停用词处理和词性标注。在进行预处理的同时,进行扩展词汇输入,从而提高中文分词的准确度。预处理阶段完成后,得到处理后的结构化文本集合。然后进行基于词性的正则表达式匹配,得到一个初步的短语筛选结果。然后统计每个词语的串频信息,选取种子词,对短语进行扩展,最终得到短语抽取结果。通过实验证明,该文本抽取方法能够有效且精炼地抽取文本短语,具有一定的可靠性和应用性。 |
申请公布号 |
CN105975475A |
申请公布日期 |
2016.09.28 |
申请号 |
CN201610207374.X |
申请日期 |
2016.03.31 |
申请人 |
华南理工大学 |
发明人 |
黄翰;丁东辉;林伟佳;郝志峰;杨晓伟 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
广州粤高专利商标代理有限公司 44102 |
代理人 |
何淑珍 |
主权项 |
一种基于中文短语串的细粒度主题信息抽取方法,其特征在于,包括以下步骤:(a)对原始文本进行常规的文本分析的预处理步骤,包括中文分词、停用词处理和词性标注;(b)针对语料中存在的大量专有名词引入另外的扩展词库来进行处理,从而得到结构化的文本集合;(c)利用步骤(a),(b)中得到的结构化文本集合,进行基于词性长度的正则表达式匹配,以7个词语作为短语长度的上限;(d)利用步骤(c)过滤得到的短语抽取的中间结果,进行词语串频信息统计,包括前缀短语串频集合和后缀短语串频集合的信息统计;(e)基于步骤(d)统计得到的信息进行词语串频信息参数分析;(f)基于步骤(e)进行候选种子词选取与短语扩展向前进行短语扩展和向后进行短语扩展。 |
地址 |
510640 广东省广州市天河区五山路381号 |