发明名称 一种基于重复字串的微博新词非监督自动抽取方法
摘要 本发明公开了一种基于重复字串的微博新词非监督自动抽取方法,先对待处理的微博文档进行文本切分,利用动态规划的分词方法切分文本,切分出待识别的字串,将待识别字串中切词碎片组合,组合成待识别的新词,然后根据统计选词模型从待识别的字串提取出候选新词,紧接着利用规则过滤模型对候选词进行过滤,最后得到最终的新词。本发明的有益效果是有效的保证了较高的准确率,并不过分依赖规则字库,同时保证了新词的抽取速度。
申请公布号 CN103678656A 申请公布日期 2014.03.26
申请号 CN201310719081.6 申请日期 2013.12.23
申请人 合肥工业大学 发明人 孙晓;李承程;叶嘉麒;唐陈意;任福继
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京科亿知识产权代理事务所(普通合伙) 11350 代理人 汤东凤
主权项 一种基于重复字串的微博新词非监督自动抽取方法,其特征在于:先对待处理的微博文档进行文本切分,利用动态规划的分词方法切分文本,切分出待识别的字串,将待识别字串中切词碎片组合,组合成待识别的新词,然后根据统计选词模型从待识别的字串提取出候选新词,紧接着利用规则过滤模型对候选词进行过滤,最后得到最终的新词。
地址 230001 安徽省合肥市屯溪路193号