发明名称 一种基于用户历史行为特征的知识文档推荐方法
摘要 一种基于用户历史行为特征的知识文档推荐方法,通过计算文章中每个词语的词频,以词语和词频作为项和支持度,用FP‑Tree方法挖掘出与用户上传之文章最具相关性的文章,包括:对知识库中的和用户阅读过的文章分词提取知识库词库;扫描优化用户词库中的词表,用TF词频代替FP‑tree算法中的支持度构建FP树,挖掘出具有用户阅读特征的频繁项集;最后确定最相关的文章,对最相关文章的重要度排序,向用户推荐。本发明用文章中的词语作为挖掘特征,为每个用户的历史阅读行为建模,不依赖其它用户的阅读行为,解决了企业知识库中大量有价值的文章无人阅读而用户又找不到包含相关知识文章的问题。
申请公布号 CN103678620B 申请公布日期 2017.02.15
申请号 CN201310697904.X 申请日期 2013.12.18
申请人 国家电网公司;国网湖北省电力公司电力科学研究院;华中科技大学 发明人 冯天佑;李成华;阮羚;邓万婷;陈婷;余晓阳;欧阳由;熊宇
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 武汉楚天专利事务所 42113 代理人 雷速
主权项 一种基于用户历史行为特征的知识文档推荐方法,首先,由管理员将文章集建立知识库,确定知识库中文章的分类;之后,登陆用户上传新的文章到知识库后,为上传的文章标注类别;第三步,系统收集用户上传的以及阅读过的文章并进行归类分析;最终,根据分析结果向该用户推荐同类别的其他文章阅读,并排列推荐文章的显示顺序,其特征是:向用户推荐文章的方法为基于词频的关联知识挖掘方法,具体为:分析用户历史行为特征,建立用户历史行为特征库,通过计算用户上传的以及阅读过的文章中每个词语的词频,以词语和词频作为项和支持度,用FP‑Tree算法挖掘出与用户上传之文章最具相关性的文章,包括下述三种,下述的N为1~15:第一种方式,该用户上传或阅读的文章种类的知识文档中点击数最高的N篇文章;第二种方式,该用户上传或阅读的文章种类的知识文档中好评数最多的N篇文章;第三种方式,通过数据挖掘得到与用户上传、阅读过的文章中知识关联性最大的N篇文章;第三种方式具体为,对知识库中的文章做分词处理形成知识库词库,提取用户上传过、阅读过的文章做分词处理形成用户词库,约减用户词库形成优化用户词库,通过FP‑Tree算法对用户词库进行数据挖掘得到频繁项集,根据频繁项集中的词在优化词库的各对应类别中的词频确定知识最相关的N篇文章;所述用户词库以下述方式得到:首先提取用户上传和阅读过的文章组成文章集,然后用下述方法对文章集中的每篇文章提取TF词频:首先对文章集中的每一篇文章做分词处理,分词后,首先统计词频TF,对于在第j篇文章中的第i个词语t<sub>i</sub>,它的重要性表示为:<maths num="0001"><math><![CDATA[<mrow><msub><mi>tf</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><mfrac><msub><mi>n</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mrow><munder><mo>&Sigma;</mo><mi>k</mi></munder><msub><mi>n</mi><mrow><mi>k</mi><mo>,</mo><mi>j</mi></mrow></msub></mrow></mfrac><mo>,</mo></mrow>]]></math><img file="FDA0001115687780000021.GIF" wi="291" he="185" /></maths>上式中n<sub>i,j</sub>是词t<sub>i</sub>在文章d<sub>j</sub>中出现的次数,分母是在文章d<sub>j</sub>中所有字词的出现次数之和,下标i、j、k均表示序号;然后统计词语的逆向文档频率IDF,由下式得到:<maths num="0002"><math><![CDATA[<mrow><msub><mi>idf</mi><mi>i</mi></msub><mo>=</mo><mi>l</mi><mi>o</mi><mi>g</mi><mfrac><mrow><mo>|</mo><mi>D</mi><mo>|</mo></mrow><mrow><mo>|</mo><mo>{</mo><mi>d</mi><mo>:</mo><msub><mi>t</mi><mi>i</mi></msub><mo>&Element;</mo><mi>d</mi><mo>}</mo><mo>|</mo></mrow></mfrac><mo>,</mo></mrow>]]></math><img file="FDA0001115687780000022.GIF" wi="448" he="130" /></maths>其中:idf<sub>i</sub>表示第i个词语的IDF值,|D|是知识库中文章的总数,|{d:t<sub>i</sub>∈d}|是知识库中包含词语t<sub>i</sub>的文章数目,再以下式计算TF词频TF‑IDF:tfidf<sub>i,j</sub>=tf<sub>i,j</sub>*idf<sub>i</sub>,tfidf<sub>i,j</sub>表示第j篇文章中第i个词的TF‑IDF词频,统计出的每个知识类别词语的TF词频值,得到(词,TF词频)对,以包含有(文章,(词,TF词频))对的形式存储为用户词库。
地址 100031 北京市西城区西长安街86号