一种基于重复字串的微博新词非监督自动抽取方法,申请号CN201310719081.6-传众专利搜索

发明名称	一种基于重复字串的微博新词非监督自动抽取方法
摘要	本发明公开了一种基于重复字串的微博新词非监督自动抽取方法，先对待处理的微博文档进行文本切分，利用动态规划的分词方法切分文本，切分出待识别的字串，将待识别字串中切词碎片组合，组合成待识别的新词，然后根据统计选词模型从待识别的字串提取出候选新词，紧接着利用规则过滤模型对候选词进行过滤，最后得到最终的新词。本发明的有益效果是有效的保证了较高的准确率，并不过分依赖规则字库，同时保证了新词的抽取速度。
申请公布号	CN103678656A	申请公布日期	2014.03.26
申请号	CN201310719081.6	申请日期	2013.12.23
申请人	合肥工业大学	发明人	孙晓;李承程;叶嘉麒;唐陈意;任福继
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京科亿知识产权代理事务所(普通合伙) 11350	代理人	汤东凤
主权项	一种基于重复字串的微博新词非监督自动抽取方法，其特征在于：先对待处理的微博文档进行文本切分，利用动态规划的分词方法切分文本，切分出待识别的字串，将待识别字串中切词碎片组合，组合成待识别的新词，然后根据统计选词模型从待识别的字串提取出候选新词，紧接着利用规则过滤模型对候选词进行过滤，最后得到最终的新词。
地址	230001 安徽省合肥市屯溪路193号