基于标签技术的个人交互数据检索方法及其系统,申请号CN201210343032.2-传众专利搜索

发明名称	基于标签技术的个人交互数据检索方法及其系统
摘要	本发明提供一种基于标签技术的个人交互数据检索方法及其系统。该方法将交互数据与标签之间的二元关系存储在数据库中，通过设计标签的总权重和标签与标签之间的权重计算方法，构建基于带权树形结构的用户兴趣模型，从而有效的描述用户对标签的偏好特征；在用户给资源添加标签时，根据用户的兴趣模型智能的为用户输出相应的标签；同时，利用用户对资源的交互操作特征和标签的共现情况等因素来构建资源之间的关联关系，实现为用户推荐并输出资源，提高用户的浏览和检索效率。本发明可以满足用户对个人交互数据管理个性化和智能化的需求，有效的减少用户的交互负担。
申请公布号	CN102880687B	申请公布日期	2015.07.29
申请号	CN201210343032.2	申请日期	2012.09.14
申请人	北京大学	发明人	李成;滕建斌;王衡;汪国平
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京君尚知识产权代理事务所(普通合伙) 11200	代理人	余长江
主权项	一种基于标签技术的个人交互数据检索方法，其步骤包括：1)采集用户的个人交互数据，并监听资源的访问时间段；2)从采集的个人交互数据中根据资源名称和交互动作信息提取资源的关键词，利用所述关键词对资源自动添加标签；3)计算各标签的权重和标签之间的关联度，然后以标签为顶点、以存在关联关系的标签对为边、以所述关联度为边的权重值构建基于标签关联关系的连通图，进而构建带权树型结构的用户兴趣模型；所述标签之间的关联度通过标签之间的泛化度来衡量，其计算公式为：<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>gen</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>i</mi></msub><mo>,</mo><msub><mi>t</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>proj</mi><msub><mi>Rt</mi><mi>i</mi></msub><mo>∩</mo><msub><mi>projRt</mi><mi>j</mi></msub></mrow><mrow><mi>min</mi><mrow><mo>(</mo><mo>\|</mo><msub><mi>projRt</mi><mi>i</mi></msub><mo>\|</mo><mo>,</mo><mo>\|</mo><msub><mi>projRt</mi><mi>j</mi></msub><mo>\|</mo><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow>]]></math><img file="FDA0000692612720000011.GIF" wi="891" he="191" /></maths>其中，gen(t<sub>i</sub>,t<sub>j</sub>)为任意标签对(t<sub>i</sub>,t<sub>j</sub>)之间的关联度，t<sub>i</sub>和t<sub>j</sub>为任意的标签，projRt<sub>i</sub>和projRt<sub>j</sub>表示其所标注的资源集；所述带权树形结构的用户兴趣模型采用贪心算法构建，其算法流程为：a)初始状态时，树中仅含有一个虚构的节点ROOT代表树的根节点，然后根据标签总权重对所有标签进行排序，得到标签的总权重序列L；b)采用贪心算法迭代的插入L中的标签元素，在插入第j个标签元素时，首先计算所有在树中已经存在的标签与此标签之间的关联度，选取关联度最大的节点t<sub>i</sub>，连接节点t<sub>i</sub>和t<sub>j</sub>，并将t<sub>j</sub>作为t<sub>i</sub>的子节点插入树中，如果已经存在的所有节点与此节点的关联度小于某个阈值θ<sub>gen</sub>，就直接连接根节点和此节点，将此节点作为根节点的子节点插入树中，插入成功后从列表L中删除此节点；c)按照步骤b)循环插入列表L中所有的标签节点，直至L为空；4)根据所述用户兴趣模型和资源已有标签建立候选的标签列表，在用户编辑资源的标签时根据所述标签列表向用户输出标签；5)通过所述资源的访问时间段计算资源的同时访问比率，基于标签相似比率以及所述同时访问比率计算资源间的关联程度，根据所述资源间的关联程度向用户输出资源；所述标签相似比率通过下式计算：<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>R</mi><mi>tag</mi></msub><mo>=</mo><mfrac><mrow><mo>\|</mo><msub><mi>T</mi><mi>ri</mi></msub><mo>∩</mo><msub><mi>T</mi><mi>r</mi></msub><mo>\|</mo></mrow><mrow><mo>\|</mo><msub><mi>T</mi><mi>ri</mi></msub><mo>∪</mo><msub><mi>T</mi><mi>r</mi></msub><mo>\|</mo></mrow></mfrac></mrow>]]></math><img file="FDA0000692612720000012.GIF" wi="398" he="195" /></maths>其中，R<sub>tag</sub>表示标签相似比率，T<sub>ri</sub>表示资源r<sub>i</sub>所含标签的集合，T<sub>r</sub>表示资源r所含标签的集合；所述同时访问比率通过下式计算：R<sub>time</sub>＝IT(r<sub>i</sub>,r)/UT(r<sub>i</sub>,r)，其中，R<sub>time</sub>表示标签相似比率，IT(r<sub>i</sub>,r)表示资源r<sub>i</sub>和r同时处于打开状态的所有时间段的长度之和，UT(r<sub>i</sub>,r)表示资源r<sub>i</sub>和r至少有一个处于打开状态的所有时间段的长度之和。
地址	100871 北京市海淀区颐和园路5号