发明名称 基于光标位置序列的搜索引擎用户满意度自动评估方法
摘要 本发明涉及一种基于用户行为模式的搜索满意度自动评估方法,属于信息检索领域,该方法包括:获取用于搜索满意度自动评估的搜索引擎查询日志;对获取的两种搜索引擎查询日志进行预处理;从处理后的搜索引擎查询日志挖掘出用于满意度自动评估的光标位置序列;对满意度评估分类器进行训练;将不包含满意度反馈信息的搜索引擎查询日志输入到该分类器中,分类器的输出即为搜索满意度自动评估结果。本发明方法通过对用户在搜索过程中的交互日志的分析,对比被用户反馈为“满意”和“不满意”的搜索引擎查询日志中所体现出的光标位置序列差异,挖掘出可以高效区分用户不同满意程度的光标位置序列,以达到对搜索满意度进行自动评估的目的。
申请公布号 CN105512224A 申请公布日期 2016.04.20
申请号 CN201510857213.0 申请日期 2015.11.30
申请人 清华大学;北京搜狗科技发展有限公司 发明人 陈烨;刘奕群;许静芳;张阔;茹立云;张敏;马少平;汪萌;洪日昌
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人 廖元秋
主权项 一种基于用户行为模式的搜索满意度自动评估方法,其特征在于,该方法包括以下步骤:1)获取用于搜索满意度自动评估的两种搜索引擎查询日志:通过搜索引擎网络服务器得到的含有查询词、用户标识、时间戳、光标屏幕坐标信息的搜索引擎查询日志,该搜索引擎查询日志不包含用于搜索满意度自动评估的满意度反馈;预先邀请一定数目的用户进行预定目标的搜索任务并对每个搜索任务进行满意度评价,通过搜索引擎网络服务器收集这些用户所完成的搜索任务所对应的包含查询词、用户标识、时间戳、光标屏幕坐标信息的搜索引擎查询日志,该搜索引擎查询日志同时还包含每一位用户对自己完成的每一个搜索任务所给出的一个包含“满意(SAT)”,或者“不满意(DSAT)”的满意度反馈信息,用于光标位置序列的抽取;2)对步骤1)获取的两种搜索引擎查询日志进行预处理:具体包括:2.1)进行搜索引擎查询日志编码转换:将服务器记录的编码格式转换成国家标准汉字编码的GBK格式;2.2)利用字符串匹配技术过滤搜索引擎查询日志中的噪声信息;3)从处理后的搜索引擎查询日志挖掘出用于满意度自动评估的光标位置序列;具体包括:3.1)构建光标位置序列备选集合:设定由N个位置坐标构成的光标位置序列T,则有<img file="FDA0000862860810000011.GIF" wi="335" he="78" />其中(x<sub>i</sub>,y<sub>i</sub>)为t<sub>i</sub>时刻光标在屏幕上的位置坐标;设定一个滑动窗口的长度,记为L,用滑动窗口从每一个搜索引擎查询日志所记录的所有光标位置坐标中截取出所有长度为L的光标位置序列,将从所有被用户标记为满意(SAT)的搜索引擎查询日志(SAT_DATA)中获得的光标位置序列作为备选集合M_SAT,从所有被标记为不满意(DSAT)的搜索引擎查询日志(DSAT_DATA)中获得的光标位置序列作为备选集合M_DSAT;3.2)对光标位置序列备选集M_SAT和M_DSAT中的每个备选光标位置序列进行归一化:对光标位置序列备选集合中的每一个备选光标位置序列做<img file="FDA0000862860810000012.GIF" wi="658" he="79" />的转换,其中<img file="FDA0000862860810000013.GIF" wi="94" he="63" />分别是该备选光标位置序列的x,y坐标的均值;3.3)光标位置序列筛选采用“基于距离差异”或“基于分布差异”的方法从归一化后的光标位置序列备选集合M_SAT和M_DSAT集合中筛选出评估能获得理想的评估效果的一定量的光标位置序列,用于后续满意度自动评估;“基于距离差异”的筛选方法,具体方法:为每一个备选光标位置序列计算一个评分Score<sub>distance</sub>,对于M_SAT中的每个备选光标位置序列C_SAT,计算评分Score<sub>distance</sub>公式为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>Score</mi><mrow><mi>d</mi><mi>i</mi><mi>s</mi><mi>tan</mi><mi>c</mi><mi>e</mi></mrow></msub><mrow><mo>(</mo><mrow><mi>C</mi><mo>_</mo><mi>S</mi><mi>A</mi><mi>T</mi></mrow><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mo>&Sigma;</mo><mrow><msub><mi>C</mi><mi>i</mi></msub><mo>&Element;</mo><mi>M</mi><mo>_</mo><mi>D</mi><mi>S</mi><mi>A</mi><mi>T</mi></mrow></msub><mrow><mi>D</mi><mi>T</mi><mi>W</mi><mrow><mo>(</mo><mrow><mi>C</mi><mo>_</mo><mi>S</mi><mi>A</mi><mi>T</mi><mo>,</mo><msub><mi>C</mi><mi>i</mi></msub></mrow><mo>)</mo></mrow></mrow></mrow><mrow><mo>|</mo><mi>M</mi><mo>_</mo><mi>D</mi><mi>S</mi><mi>A</mi><mi>T</mi><mo>|</mo></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000862860810000021.GIF" wi="1405" he="166" /></maths>其中C<sub>i</sub>表示光标位置序列备选集合M_DSAT中的一个备选光标位置序列,DTW(C_SAT,C<sub>i</sub>)表示两个备选光标位置序列C_SAT和C<sub>i</sub>的DTW距离,|M_DSAT|表示光标位置序列备选集合M_DSAT中光标位置序列的个数;对于M_DSAT中的备选光标位置序列C_DSAT,计算评分Score<sub>distance</sub>公式为:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>Score</mi><mrow><mi>d</mi><mi>i</mi><mi>s</mi><mi>tan</mi><mi>c</mi><mi>e</mi></mrow></msub><mrow><mo>(</mo><mrow><mi>C</mi><mo>_</mo><mi>D</mi><mi>S</mi><mi>A</mi><mi>T</mi></mrow><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mo>&Sigma;</mo><mrow><msub><mi>C</mi><mi>i</mi></msub><mo>&Element;</mo><mi>M</mi><mo>_</mo><mi>S</mi><mi>A</mi><mi>T</mi></mrow></msub><mrow><mi>D</mi><mi>T</mi><mi>W</mi><mrow><mo>(</mo><mrow><mi>C</mi><mo>_</mo><mi>D</mi><mi>S</mi><mi>A</mi><mi>T</mi><mo>,</mo><msub><mi>C</mi><mi>i</mi></msub></mrow><mo>)</mo></mrow></mrow></mrow><mrow><mo>|</mo><mi>M</mi><mo>_</mo><mi>S</mi><mi>A</mi><mi>T</mi><mo>|</mo></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000862860810000022.GIF" wi="1310" he="166" /></maths>公式(2)中的C<sub>i</sub>表示光标位置序列备选集合M_SAT中的一个备选光标位置序列,DTW(C_DSAT,C<sub>i</sub>)表示两个备选光标位置序列C_DSAT和C<sub>i</sub>的DTW距离,|M_SAT|表示光标位置序列备选集合M_DST中光标位置序列的个数;对所有备选光标位置序列的评分由大到小排序,然后依次挑选出评分最高的前50‑500个光标位置序列,作为光标位置序列集合M,用于后续满意度自动评估;“基于分布差异”的筛选方法具体方法,判断先定义一个光标位置序列C与某个搜索引擎查询日志S的距离,用于判断一个光标位置序列是否能覆盖一个搜索引擎查询日志:Dist(C,S)=min{DTW(C<sub>i</sub>,C)|C<sub>i</sub>∈S}  (3)公式(3)中的C<sub>i</sub>表示用长度为L的滑动窗口从S中截取到的光标位置序列;再定义光标位置序列C在SAT_DATA或DSAT_DATA搜索引擎查询日志集合D上的覆盖率CoverRate(C,D):<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>C</mi><mi>o</mi><mi>v</mi><mi>e</mi><mi>r</mi><mi>R</mi><mi>a</mi><mi>t</mi><mi>e</mi><mrow><mo>(</mo><mrow><mi>C</mi><mo>,</mo><mi>D</mi></mrow><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>|</mo><mrow><mo>{</mo><mrow><mfrac><mrow><mo>|</mo><mi>D</mi><mo>|</mo><mi>D</mi><mi>i</mi><mi>s</mi><mi>t</mi><mrow><mo>(</mo><mrow><mi>C</mi><mo>,</mo><msub><mi>S</mi><mi>i</mi></msub></mrow><mo>)</mo></mrow></mrow><mrow><msub><mo>&Sigma;</mo><mrow><msub><mi>S</mi><mi>i</mi></msub><mo>&Element;</mo><mi>D</mi></mrow></msub><mrow><mi>D</mi><mi>i</mi><mi>s</mi><mi>t</mi><mrow><mo>(</mo><mrow><mi>C</mi><mo>,</mo><msub><mi>S</mi><mi>i</mi></msub></mrow><mo>)</mo></mrow></mrow></mrow></mfrac><mo>&lt;</mo><mi>r</mi><mo>|</mo><msub><mi>S</mi><mi>i</mi></msub><mo>&Element;</mo><mi>D</mi></mrow><mo>}</mo></mrow><mo>|</mo></mrow><mrow><mo>|</mo><mi>D</mi><mo>|</mo></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000862860810000031.GIF" wi="1277" he="236" /></maths>公式(4)中的r为覆盖的阈值;最后定义一个备选光标位置序列在两类数据SAT_DATA和DSAT_DATA上的覆盖率的比值,作为该光标位置序列的分布差异得分:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>Score</mi><mrow><mi>d</mi><mi>i</mi><mi>s</mi><mi>t</mi><mi>r</mi><mi>i</mi></mrow></msub><mrow><mo>(</mo><mi>C</mi><mo>_</mo><mi>S</mi><mi>A</mi><mi>T</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>C</mi><mi>o</mi><mi>v</mi><mi>e</mi><mi>r</mi><mi>R</mi><mi>a</mi><mi>t</mi><mi>e</mi><mrow><mo>(</mo><mi>C</mi><mo>_</mo><mi>S</mi><mi>A</mi><mi>T</mi><mo>,</mo><mi>S</mi><mi>A</mi><mi>T</mi><mo>_</mo><mi>D</mi><mi>A</mi><mi>T</mi><mi>A</mi><mo>)</mo></mrow></mrow><mrow><mi>C</mi><mi>o</mi><mi>v</mi><mi>e</mi><mi>r</mi><mi>R</mi><mi>a</mi><mi>t</mi><mi>e</mi><mrow><mo>(</mo><mi>C</mi><mo>_</mo><mi>S</mi><mi>A</mi><mi>T</mi><mo>,</mo><mi>D</mi><mi>S</mi><mi>A</mi><mi>T</mi><mo>_</mo><mi>D</mi><mi>A</mi><mi>T</mi><mi>A</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000862860810000032.GIF" wi="1269" he="142" /></maths><maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><msub><mi>Score</mi><mrow><mi>d</mi><mi>i</mi><mi>s</mi><mi>t</mi><mi>r</mi><mi>i</mi></mrow></msub><mrow><mo>(</mo><mi>C</mi><mo>_</mo><mi>D</mi><mi>S</mi><mi>A</mi><mi>T</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>C</mi><mi>o</mi><mi>v</mi><mi>e</mi><mi>r</mi><mi>R</mi><mi>a</mi><mi>t</mi><mi>e</mi><mrow><mo>(</mo><mi>C</mi><mo>_</mo><mi>D</mi><mi>S</mi><mi>A</mi><mi>T</mi><mo>,</mo><mi>D</mi><mi>S</mi><mi>A</mi><mi>T</mi><mo>_</mo><mi>D</mi><mi>A</mi><mi>T</mi><mi>A</mi><mo>)</mo></mrow></mrow><mrow><mi>C</mi><mi>o</mi><mi>v</mi><mi>e</mi><mi>r</mi><mi>R</mi><mi>a</mi><mi>t</mi><mi>e</mi><mrow><mo>(</mo><mi>C</mi><mo>_</mo><mi>D</mi><mi>S</mi><mi>A</mi><mi>T</mi><mo>,</mo><mi>S</mi><mi>A</mi><mi>T</mi><mo>_</mo><mi>D</mi><mi>A</mi><mi>T</mi><mi>A</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000862860810000033.GIF" wi="1438" he="143" /></maths>对于M_SAT中的备选光标位置序列C_SAT,按照公式(5)计算得分,而对于M_DSAT中的备选光标位置序列C_DSAT,按照公式(6)计算得分;在计算出所有备选光标位置序列的评分以后,按照评分由大到小进行排序,然后依次筛选出评分最高的前50‑500个光标位置序列,作为光标序列集合M,用于后续满意度自动评估;4)对满意度评估分类器进行训练:将收集到的包含用户满意度反馈的数据SAT_DATA和DSAT_DATA作为训练数据集;对训练数据集中的每一个搜索引擎查询日志S,对于集合M中的每一个光标位置序列m<sub>i</sub>,按照公式(3)计算距离Dist(m<sub>i</sub>,S)作为特征,若M中有n个光标位置序列,则S可以获得一个n维的特征向量,将用户的满意度反馈作为预测目标,训练一个满意度分类器;5)搜索满意度自动评估:对于在不包含满意度反馈的搜索引擎查询日志,按照公式(3),计算集合M中每一个光标位置序列与搜索引擎查询日志的距离,获得一个n维的特征向量,然后输入到满意度分类器中,该分类器的输出即为搜索满意度自动评估结果。
地址 100084 北京市海淀区清华园1号