发明名称 领域词获取方法及系统
摘要 本发明涉及一种领域词获取方法及系统。该方法包括以下步骤:获取网络数据,并对网络数据进行领域分类;从所述领域分类后的网络数据中抽取第一候选领域词;对所述第一候选领域词的语义完整性进行处理,得到第二候选领域词;计算所述第二候选领域词的领域相关性,并将所述第二候选领域词的领域相关性与相关性阈值比较,得出领域词。上述领域词获取方法及系统,采用从网络数据中抽取第一候选领域词,对第一候选领域词进行语义完整性处理,得到第二候选领域词,计算第二候选领域词的相关性,与相关性阈值比较得出领域词,可较为准确的获取大量的领域词。
申请公布号 CN102646100B 申请公布日期 2016.02.24
申请号 CN201110041850.2 申请日期 2011.02.21
申请人 腾讯科技(深圳)有限公司 发明人 刘怀军;赵琳
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州华进联合专利商标代理有限公司 44224 代理人 何平;曾旻辉
主权项 一种领域词获取方法,包括以下步骤:获取网络数据,并对网络数据进行领域分类;从所述领域分类后的网络数据中抽取第一候选领域词;对所述第一候选领域词的语义完整性进行处理,得到第二候选领域词;计算所述第二候选领域词的领域相关性,并将所述第二候选领域词的领域相关性与相关性阈值比较,得出领域词;所述计算第二候选领域词的领域相关性,并将第二候选领域词的领域相关性与相关性阈值比较,得出领域词的具体步骤包括:计算所述第二候选领域词的类间熵、类内熵及第二候选领域词属于每个领域的后验概率;根据所述第二候选领域词的类间熵、类内熵及第二候选领域词属于每个领域的后验概率,计算所述第二候选领域词的统计领域相关性;将所述第二候选领域词的统计领域相关性与相关性阈值比较,得出领域词。
地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室