发明名称 |
一种信息检索方法及其装置 |
摘要 |
本发明公开了一种信息检索方法及其装置,其中,方法包括:对信息库中的每一个信息文件进行分词获取策略词,按照预设的评分标准获取各策略词在各信息文件中的权重;S2、创建倒排索引表,将各策略词在各信息文件中的权重记录在倒排索引表中;S3、当接收到用户检索请求时,提取该检索请求中的特征词;S4、依据各特征词与用户的行为特征的相关性,分别计算各特征词的权重;S5、获取候选信息文件分别计算各候选信息件的总得分;S6、依据总得分对候选信息文件进行排序,将排序在前的候选信息文件推送给用户。本发明使信息文件的推送到更加准确的定位目标受众,使信息文件的推送更有针对性。 |
申请公布号 |
CN102982153B |
申请公布日期 |
2016.03.23 |
申请号 |
CN201210500782.6 |
申请日期 |
2012.11.29 |
申请人 |
北京亿赞普网络技术有限公司 |
发明人 |
罗峰;黄苏支;李娜 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京品源专利代理有限公司 11332 |
代理人 |
马晓亚 |
主权项 |
一种信息检索方法,其特征在于,包括:步骤S1、对信息库中的每一个信息文件进行分词获取策略词,按照预设的评分标准获取各策略词在各信息文件中的权重;步骤S2、在所述信息库范围内为各策略词创建倒排索引表,将各策略词在各信息文件中的权重、出现次数和出现的位置记录在所述倒排索引表中;步骤S3、当接收到用户检索请求时,提取该检索请求中的特征词,依据所述倒排索引表,将包含至少一个所述特征词的信息文件作为候选信息文件,分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分;步骤S4、依据所述总得分对所述候选信息文件进行排序,将排序在前的候选信息文件推送给所述用户;其中,所述步骤S3中所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为:依据各特征词与所述用户的行为特征的相关性,分别计算各特征词的权重,依据各特征词的权重和所述倒排索引表,分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分;所述分别计算各特征词的权重具体包括:获取所述用户的检索历史和/或用户属性,将各特征词在所述检索历史中出现的频率作为特征词的权重和/或将所述用户属性与各特征词的相关度作为特征词的权重;所述步骤S3中所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为:候选信息文件D与用户查询中所有特征词Q的相关性总得分等于:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><munder><mo>Σ</mo><mrow><msub><mi>q</mi><mi>i</mi></msub><mo>∈</mo><mi>Q</mi></mrow></munder><mi>l</mi><mi>o</mi><mi>g</mi><mfrac><mrow><mo>(</mo><msub><mi>r</mi><mi>i</mi></msub><mo>+</mo><mn>0.5</mn><mo>)</mo><mo>/</mo><mo>(</mo><mi>R</mi><mo>-</mo><msub><mi>r</mi><mi>i</mi></msub><mo>+</mo><mn>0.5</mn><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>n</mi><mi>i</mi></msub><mo>-</mo><msub><mi>r</mi><mi>i</mi></msub><mo>+</mo><mn>0.5</mn><mo>)</mo><mo>/</mo><mo>(</mo><mi>N</mi><mo>-</mo><msub><mi>n</mi><mi>i</mi></msub><mo>-</mo><mi>R</mi><mo>+</mo><msub><mi>r</mi><mi>i</mi></msub><mo>+</mo><mn>0.5</mn><mo>)</mo></mrow></mfrac><mo>×</mo><mfrac><mrow><mo>(</mo><msub><mi>k</mi><mn>1</mn></msub><mo>+</mo><mn>1</mn><mo>)</mo><msub><mi>f</mi><mi>i</mi></msub></mrow><mrow><mi>K</mi><mo>+</mo><msub><mi>f</mi><mi>i</mi></msub></mrow></mfrac><mo>×</mo><mfrac><mrow><mo>(</mo><msub><mi>k</mi><mn>2</mn></msub><mo>+</mo><mn>1</mn><mo>)</mo><msub><mi>qf</mi><mi>i</mi></msub></mrow><mrow><msub><mi>k</mi><mn>2</mn></msub><mo>+</mo><msub><mi>qf</mi><mi>i</mi></msub></mrow></mfrac><mo>×</mo><mi>A</mi><mo>×</mo><mi>B</mi></mrow>]]></math><img file="FDA0000808001160000021.GIF" wi="1502" he="143" /></maths>其中,Q是用户检索请求中的所有特征词集合;q<sub>i</sub>是Q中一个特征词;r<sub>i</sub>是包含特征词q<sub>i</sub>的相关信息文件数量;n<sub>i</sub>是包含特征词q<sub>i</sub>的信息文件数量;N是信息库中所有信息文件的数量;R是和特征词q<sub>i</sub>作为策略词在倒排索引表中对应的相关信息文件数量;f<sub>i</sub>是特征词q<sub>i</sub>在候选信息文件D中出现的次数;qf<sub>i</sub>是特征词q<sub>i</sub>出现在Q中的次数;k<sub>1</sub>,k<sub>2</sub>,K是预设的常数;A是特征词q<sub>i</sub>的权重值;B是特征词q<sub>i</sub>作为策略词对于候选信息文件D的权重值。 |
地址 |
100081 北京市海淀区中关村南大街甲18号院2号楼1607 |