发明名称 |
新词发现方法及装置 |
摘要 |
一种新词发现方法及装置,所述方法包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;判断所述候选数据串是否为特定候选数据串,所述特定候选数据串包括基础名词,且位于所述基础名词的特定相对位置的词语为名词或形容词;对所述候选数据串进行判断处理,以发现新词。所述方法及装置可以提升新词发现的准确率。 |
申请公布号 |
CN105224682A |
申请公布日期 |
2016.01.06 |
申请号 |
CN201510706240.8 |
申请日期 |
2015.10.27 |
申请人 |
上海智臻智能网络科技股份有限公司 |
发明人 |
张昊;朱频频 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 11227 |
代理人 |
吴敏 |
主权项 |
一种新词发现方法,其特征在于,包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;判断所述候选数据串是否为特定候选数据串,所述特定候选数据串包括基础名词,且位于所述基础名词的特定相对位置的词语为名词或形容词;对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:当所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串。 |
地址 |
201803 上海市嘉定区金沙江西路1555弄398号7层 |