发明名称 检索词的聚类方法和装置
摘要 本发明提供了检索词的聚类方法和装置,其中,该方法包括:A,建立候选检索词集合,所述候选检索词集合包含由用户提供的检索词、以及与该用户提供的检索词相关的检索词;B,根据检索词的文本特征和/或语义特征对所述候选检索词集合中的检索词执行聚类操作。采用本发明,能够提高检索词聚类的准确度。
申请公布号 CN102646103B 申请公布日期 2016.03.16
申请号 CN201110043030.7 申请日期 2011.02.18
申请人 腾讯科技(深圳)有限公司 发明人 赫南;王迪;郭阳;胡立新;王艳敏;朱建朋
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京德琦知识产权代理有限公司 11018 代理人 张驰;宋志强
主权项 一种检索词的聚类方法,其特征在于,该方法包括:建立候选检索词集合,所述候选检索词集合包含由用户提供的第一检索词、以及与第一检索词相关的第二检索词;根据检索词的文本特征和/或语义特征对所述候选检索词集合中的第一检索词和与该第一检索词相关的第二检索词执行聚类操作;其中,根据检索词的文本特征和/或语义特征对所述候选检索词集合中的第一检索词和与该第一检索词相关的第二检索词执行聚类操作具体包括:根据第一检索词的文本特征和/或语义特征分别计算该第一检索词和与该第一检索词相关的各个第二检索词之间的相似度值,如果第一检索词和第二检索词之间的相似度值大于或等于第一预设阈值,则将该第一检索词和该第二检索词聚类在一起;从与第一检索词相关的各个第二检索词,或者从与第一检索词聚类在一起的各个第二检索词中选取与该第一检索词之间的相似度值大于或等于第二预设阈值的第二检索词;计算该选取的任意两个第二检索词之间的相似度值,如果该计算的相似度值大于或等于所述第一预设阈值,则将该两个第二检索词聚类在一起。
地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室