发明名称 |
一种基于重复字串的微博新词非监督自动抽取方法 |
摘要 |
本发明公开了一种基于重复字串的微博新词非监督自动抽取方法,先对待处理的微博文档进行文本切分,利用动态规划的分词方法切分文本,切分出待识别的字串,将待识别字串中切词碎片组合,组合成待识别的新词,然后根据统计选词模型从待识别的字串提取出候选新词,紧接着利用规则过滤模型对候选词进行过滤,最后得到最终的新词。本发明的有益效果是有效的保证了较高的准确率,并不过分依赖规则字库,同时保证了新词的抽取速度。 |
申请公布号 |
CN103678656A |
申请公布日期 |
2014.03.26 |
申请号 |
CN201310719081.6 |
申请日期 |
2013.12.23 |
申请人 |
合肥工业大学 |
发明人 |
孙晓;李承程;叶嘉麒;唐陈意;任福继 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京科亿知识产权代理事务所(普通合伙) 11350 |
代理人 |
汤东凤 |
主权项 |
一种基于重复字串的微博新词非监督自动抽取方法,其特征在于:先对待处理的微博文档进行文本切分,利用动态规划的分词方法切分文本,切分出待识别的字串,将待识别字串中切词碎片组合,组合成待识别的新词,然后根据统计选词模型从待识别的字串提取出候选新词,紧接着利用规则过滤模型对候选词进行过滤,最后得到最终的新词。 |
地址 |
230001 安徽省合肥市屯溪路193号 |