发明名称 |
领域词获取方法及系统 |
摘要 |
本发明涉及一种领域词获取方法及系统。该方法包括以下步骤:获取网络数据,并对网络数据进行领域分类;从所述领域分类后的网络数据中抽取第一候选领域词;对所述第一候选领域词的语义完整性进行处理,得到第二候选领域词;计算所述第二候选领域词的领域相关性,并将所述第二候选领域词的领域相关性与相关性阈值比较,得出领域词。上述领域词获取方法及系统,采用从网络数据中抽取第一候选领域词,对第一候选领域词进行语义完整性处理,得到第二候选领域词,计算第二候选领域词的相关性,与相关性阈值比较得出领域词,可较为准确的获取大量的领域词。 |
申请公布号 |
CN102646100B |
申请公布日期 |
2016.02.24 |
申请号 |
CN201110041850.2 |
申请日期 |
2011.02.21 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
刘怀军;赵琳 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
广州华进联合专利商标代理有限公司 44224 |
代理人 |
何平;曾旻辉 |
主权项 |
一种领域词获取方法,包括以下步骤:获取网络数据,并对网络数据进行领域分类;从所述领域分类后的网络数据中抽取第一候选领域词;对所述第一候选领域词的语义完整性进行处理,得到第二候选领域词;计算所述第二候选领域词的领域相关性,并将所述第二候选领域词的领域相关性与相关性阈值比较,得出领域词;所述计算第二候选领域词的领域相关性,并将第二候选领域词的领域相关性与相关性阈值比较,得出领域词的具体步骤包括:计算所述第二候选领域词的类间熵、类内熵及第二候选领域词属于每个领域的后验概率;根据所述第二候选领域词的类间熵、类内熵及第二候选领域词属于每个领域的后验概率,计算所述第二候选领域词的统计领域相关性;将所述第二候选领域词的统计领域相关性与相关性阈值比较,得出领域词。 |
地址 |
518044 广东省深圳市福田区振兴路赛格科技园2栋东403室 |