发明名称 |
词项加权函数确定及基于该函数进行搜索的方法及装置 |
摘要 |
本申请公开了一种词项加权函数确定及基于确定的函数进行搜索的方法及装置,解决词项加权函数的确定不准确扩展不灵活问题。该方法服务器根据数据库中保存的查询点击日志信息,确定查询关键词中相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数样本数据,并根据设置的至少一种特征表示方式,确定相应词项针对每种特征表示方式的特征表示向量,根据生成的词项加权函数样本数据,在特征表示的基础上,采用排序学方法对预设的词项加权函数进行学。本申请中采用排序学方法确定最优的词项加权函数,可以保证确定的词项加权函数的准确性,并且排序学所依赖的样本数据完全自动生成,其可扩展性比较高。 |
申请公布号 |
CN102637179A |
申请公布日期 |
2012.08.15 |
申请号 |
CN201110037465.0 |
申请日期 |
2011.02.14 |
申请人 |
阿里巴巴集团控股有限公司 |
发明人 |
赵京雷;林锋 |
分类号 |
G06F17/30(2006.01)I;G06Q30/00(2012.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京同达信恒知识产权代理有限公司 11291 |
代理人 |
郭润湘 |
主权项 |
一种词项加权函数确定方法,其特征在于,包括:服务器获取数据库中保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息;针对用户发送的查询关键词中的相应词项,及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,执行以下步骤:根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的至少一种特征表示方式,确定该相应词项针对每种特征表示方式的特征表示向量,根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。 |
地址 |
英属开曼群岛大开曼岛资本大厦一座四层847号邮箱 |