发明名称 |
一种新词的识别方法及系统 |
摘要 |
本发明公开了一种新词的识别方法,该方法包括:对小规模数据集、或更新频繁的数据集中的数据进行切词处理,并提取出候选数据串;根据设置的筛选策略对候选数据串进行过滤,提取出候选新词;对提取出的候选新词在评测数据集中的出现情况进行统计,评价新词的可信度,将可信度超过预设值的新词识别出来。本发明还公开了一种新词的识别系统,系统中的新词识别单元用于对提取出的候选新词在评测数据集中的出现情况进行统计,评价新词的可信度,将可信度超过预设值的新词识别出来。采用本发明的方法及系统,能在小规模数据集、更新频繁的数据集上进行新词识别。 |
申请公布号 |
CN102467548A |
申请公布日期 |
2012.05.23 |
申请号 |
CN201010547509.X |
申请日期 |
2010.11.15 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
严浩;方高林 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京派特恩知识产权代理事务所(普通合伙) 11270 |
代理人 |
蒋雅洁;张颖玲 |
主权项 |
一种新词的识别方法,其特征在于,该方法包括:对小规模数据集或更新频繁的数据集中的数据进行切词处理,并提取出候选数据串;根据设置的筛选策略对候选数据串进行过滤,提取出候选新词;对提取出的候选新词在评测数据集中的出现情况进行统计,评价新词的可信度,将可信度超过预设值的新词识别出来。 |
地址 |
518044 广东省深圳市福田区振兴路赛格科技园2栋东403室 |