发明名称 新词发现方法及装置
摘要 一种新词发现方法及装置,所述方法包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;判断所述候选数据串是否为特定候选数据串,所述特定候选数据串包括基础名词,且位于所述基础名词的特定相对位置的词语为名词或形容词;对所述候选数据串进行判断处理,以发现新词。所述方法及装置可以提升新词发现的准确率。
申请公布号 CN105224682A 申请公布日期 2016.01.06
申请号 CN201510706240.8 申请日期 2015.10.27
申请人 上海智臻智能网络科技股份有限公司 发明人 张昊;朱频频
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 吴敏
主权项 一种新词发现方法,其特征在于,包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;判断所述候选数据串是否为特定候选数据串,所述特定候选数据串包括基础名词,且位于所述基础名词的特定相对位置的词语为名词或形容词;对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:当所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串。
地址 201803 上海市嘉定区金沙江西路1555弄398号7层