发明名称 新词发现中字符串的处理方法及装置
摘要 本发明公开了一种新词发现中字符串的处理方法及装置。该方法包括:确定待处理文本,其中,待处理文本包括至少一个成词字符串和至少一个候选字符串,成词字符串是待处理文本中用于组成新词的字符串,候选字符串是待处理文本中用于组成候选新词的字符串;获取第一位置数据和第二位置数据的从属关系,其中,第一位置数据为用于表示成词字符串在待处理文本中位置的数据,第二位置数据为用于表示候选字符串在待处理文本中位置的数据;以及根据第一位置数据和第二位置数据的从属关系对待处理文本中候选字符串进行过滤处理。通过本发明,解决了相关技术新词发现任务中由于存在无效的候选字符串影响新词发现准确率的问题。
申请公布号 CN106407175A 申请公布日期 2017.02.15
申请号 CN201510463437.3 申请日期 2015.07.31
申请人 北京国双科技有限公司 发明人 何鑫
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京康信知识产权代理有限责任公司 11240 代理人 韩建伟;张永明
主权项 一种新词发现中字符串的处理方法,其特征在于,包括:确定待处理文本,其中,所述待处理文本包括至少一个成词字符串和至少一个候选字符串,所述成词字符串是所述待处理文本中用于组成新词的字符串,所述候选字符串是所述待处理文本中用于组成候选新词的字符串;获取第一位置数据和第二位置数据的从属关系,其中,所述第一位置数据为用于表示所述成词字符串在所述待处理文本中位置的数据,所述第二位置数据为用于表示所述候选字符串在所述待处理文本中位置的数据;以及根据所述第一位置数据和所述第二位置数据的从属关系对所述待处理文本中所述候选字符串进行过滤处理。
地址 100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间