发明名称 一种基于本体结构的个性化推荐方法
摘要 本发明涉及一种基于本体结构的个性化推荐方法,步骤包括:1)根据本体结构组成一概念词典;2)将待推荐物品按照概念词典进行分词,将分词结果中的每一个词条在所述本体结构的对应节点位置标记为该物品;3)在设定的时间内将用户浏览过的物品集合表示为用户的兴趣内容,用概念词典对用户兴趣内容进行分词,并将分词结果中的每一个词条在所述本体结构的对应节点位置标记为该用户;4)根据本体相似度计算模型,对待推荐物品和用户兴趣内容的相似度进行计算,推荐相似度最大的n个物品或相似度大于一设定阈值的物品给用户。本发明提高推荐的准确性,克服了传统推荐方法的不足。
申请公布号 CN103150667B 申请公布日期 2016.06.15
申请号 CN201310082157.9 申请日期 2013.03.14
申请人 北京大学 发明人 饶俊阳;贾爱霞;冯岩松;赵东岩
分类号 G06Q30/02(2012.01)I 主分类号 G06Q30/02(2012.01)I
代理机构 北京君尚知识产权代理事务所(普通合伙) 11200 代理人 邵可声
主权项 一种基于本体结构的个性化推荐方法,其步骤包括:1)利用所述本体结构中的所有词条构造一个概念词典,所述概念词典中的每一个词条在该本体结构上具有一对应节点;2)将待推荐物品按照所述概念词典进行分词得到多个词条,并找到分词结果中的每一个词条在所述本体结构的对应节点位置,将所述对应节点标记为该待推荐物品;3)在设定的时间内将用户浏览过的物品表示为用户兴趣内容,根据概念词典对所述用户兴趣内容进行分词得到多个词条,并找到分词结果中的每一个词条在所述本体结构中的对应节点位置,将所述对应节点标记为该用户兴趣内容;4)根据基于本体的相似度计算模型,对所述待推荐物品和所述用户兴趣内容的相似度进行计算,推荐相似度最大的若干个物品或相似度大于一设定阈值的物品给用户;其中,计算所述待推荐物品和所述用户兴趣内容的相似度,需要按照如下方法计算相似度:<img file="FDA0000959776960000011.GIF" wi="995" he="110" />其中,item表示待推荐物品,user表示用户兴趣内容;<img file="FDA0000959776960000012.GIF" wi="42" he="54" />表示效果累计函数,p表示从待推荐物品中切出词条的个数,q表示从用户兴趣内容中切出词条的个数;<img file="FDA0000959776960000013.GIF" wi="86" he="70" />是待推荐物品中第i个词条,<img file="FDA0000959776960000014.GIF" wi="87" he="78" />是用户兴趣内容中第j个词条,<img file="FDA0000959776960000015.GIF" wi="333" he="78" />表示待推荐物品中的第i个词条与用户兴趣内容中第j个词条的相似度,w<sub>i,j</sub>表示<img file="FDA0000959776960000016.GIF" wi="327" he="77" />的置信度;所述置信度w<sub>i,j</sub>的阈值为[0,1]的实数,按照如下特征判断置信度:当<img file="FDA0000959776960000017.GIF" wi="91" he="75" />在待推荐物品中的权重与<img file="FDA0000959776960000018.GIF" wi="86" he="78" />在用户兴趣内容中的权重越相近,w<sub>i,j</sub>的值越大,即此时计算出的<img file="FDA0000959776960000019.GIF" wi="322" he="79" />越可信;反之,w<sub>i,j</sub>的值越小,越不可信;在w<sub>i,j</sub>中使用一个参数k来控制sim(item,user)对w<sub>i,j</sub>的敏感度,k的定义域为[0,∞)上的实数,k越大敏感度越高,当k=0时,敏感度为0,即w<sub>i,j</sub>始终为1,w<sub>i,j</sub>的取值将不会影响sim(item,user)的取值;所述词条相似度<img file="FDA00009597769600000110.GIF" wi="359" he="78" />按照如下方法计算:若待计算的两个词条<img file="FDA00009597769600000111.GIF" wi="86" he="71" />和<img file="FDA00009597769600000112.GIF" wi="82" he="70" />相同,或者为近义词,或者指代同一个事物,则相似度:<img file="FDA00009597769600000113.GIF" wi="422" he="79" />否则,相似度:<img file="FDA00009597769600000114.GIF" wi="686" he="77" />其中,d表示两个词条在本体结构上的最短距离,δ表示两个词条的最近共同祖先到本体结构根节点的最短距离,H表示本体结构的高度,g(δ)、f(d,H)分别表示g函数、f函数;所述g函数和f函数按照如下特征进行相似度计算:f(d,H)函数,d的定义域为[0,2H]的整数,H的定义域为[1,∞)的整数;g(δ)函数的值域为<img file="FDA0000959776960000021.GIF" wi="100" he="119" />的实数,f函数的值域为[0,1]的实数,g函数的值随δ的增大而增大,δ的定义域为[0,H]的整数,当H取值一定时,f函数的值随d的增大而减小;当d取值一定时,f函数的值随H的增大而增大,当H→∞时,f→1;当d=0时,f函数的值为1,此时Csim的取值与g函数的取值无关,<img file="FDA0000959776960000022.GIF" wi="429" he="78" />
地址 100871 北京市海淀区颐和园路5号北京大学