发明名称 权威作者和高质量论文推荐系统和推荐方法
摘要 一种权威作者和高质量论文的推荐系统和推荐方法,该推荐系统根据每个设定主题,利用包括论文的作者级别、引用数、发表时间及其发表的期刊或会议级别的多个因素,计算作者权威值及论文质量值,并据此推荐指定主题的权威作者和高质量的论文,避免在作者或论文推荐列表中出现权威值低的作者或质量值低的论文,并能降低系统计算量,提高系统反应时间。本发明依据学术论文特性,综合考虑作者权威值和论文质量值的各种影响因素,改进了相关算法,提高了推荐结果的准确性,不仅能够为用户推荐高质量论文,还显著缩减计算时间,实时更新效果好;在论文推荐列表中还能够提高推荐结果的多样性,并克服现有系统导致用户视野越来越窄的缺陷。
申请公布号 CN103440329B 申请公布日期 2016.05.18
申请号 CN201310396249.4 申请日期 2013.09.04
申请人 北京邮电大学 发明人 卢美莲;高洁;王萌星;秦臻;刘智超
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京德琦知识产权代理有限公司 11018 代理人 夏宪富
主权项 一种权威作者和高质量论文的推荐系统,其特征在于:所述推荐系统根据每个设定主题,利用包括论文的作者级别、引用数、发表时间及其发表的期刊或会议级别的多个因素,计算作者权威值及论文质量值,并据此推荐权威作者和高质量的论文,以避免在作者或论文推荐列表中出现权威值低的作者或质量值低的论文,并降低系统的计算量,提高系统的反应时间;该推荐系统设有:论文抓取模块、预处理模块、主题模型训练模块、用户模型构建模块、论文模型构建模块、权威值与质量值计算模块、作者与论文推荐模块和数据库;其中:论文抓取模块,负责采用网络爬虫抓取相关学科技术领域中每篇论文的下述信息:包括标题、摘要、关键词、链接地址、作者姓名与级别、所发表的期刊或会议名称、引用数量和发表时间,并根据该期刊或会议名称确定的该期刊或会议的级别,再以该论文的链接地址作为每篇论文的标识加以区分后,将上述论文全部信息都存储于数据库;预处理模块,负责从数据库中读取每篇论文的摘要和标题,并分别由分词、词性标注、词性过滤与停用词剔除四个单元依序对论文摘要进行处理,以及由分词、停用词剔除两个单元依序对论文标题进行处理,得到每篇论文的摘要分词序列和标题分词序列;其中的分词单元依据空格、标点符号对论文标题、摘要进行分词;词性标注单元对分词后的论文摘要标注词性;词性过滤单元依据词性标注单元的标注结果提取名词,停用词剔除单元删除其中对论文没有实际意义的停用词,以提高后续训练和搜索的效率;主题模型训练模块,负责读取预处理模块中的论文摘要分词序列,将其作为论文文本执行下述主题模型训练:根据设定的主题个数,利用主题模型对每篇论文文本生成其对应每个主题的主题特征向量、即每篇论文归属于每个主题的分布权值集合,以使每篇论文都具有其归属每个主题的特征向量,再以每篇论文的标识进行区分;论文模型构建模块,设有标题、摘要与关键词共三个空间特征向量计算单元和论文模型构建单元,所述标题的空间特征向量计算单元负责读取预处理模块中的每篇论文的标题分词序列,再计算每篇论文的标题分词序列中每个词的tf‑idf值,得到每篇论文标题的空间特征向量;摘要的空间特征向量计算单元负责读取预处理模块中的每篇论文的摘要分词序列,再计算每篇论文的摘要分词序列中每个词的tf‑idf值,得到每篇论文摘要的空间特征向量;关键词的空间特征向量计算单元负责读取存储于数据库中的每篇论文的关键词,再计算每篇论文的关键词中每个词的tf‑idf值,得到每篇论文关键词的空间特征向量;论文模型构建单元根据每篇论文的上述三个空间特征向量构建该论文的论文模型;所述空间特征向量是分别由上述标题、摘要和关键词三部分中各自的词和该词的tf‑idf值成对组成的多个键值对形成的向量;用户模型构建模块,负责构建个性化的用户模型:根据从数据库中获取设定时间段内每个用户的全部操作行为记录,以及从主题模型训练模块中获取的论文主题特征向量,计算该用户的当前研究主题集合;再从论文模型构建模块中获取该论文的论文模型,计算该用户的用户标题、用户摘要和用户关键词共三个空间特征向量;并由该用户的当前研究主题集合与用户标题、用户摘要和用户关键词三个空间特征向量构成该用户的用户模型;设有:用户当前研究主题计算、用户标题空间特征向量计算、用户摘要空间特征向量计算、用户关键词空间特征向量计算和用户模型构建五个单元;权威值与质量值计算模块,负责迭代计算针对每个主题的论文作者权威值和论文质量值:读取主题模型训练模块中的论文的主题特征向量,得到归属某主题的所有论文,再从数据库中读取归属于该主题的所有论文的作者信息,得到该主题的全部作者;并依据作者级别设置该主题的全部作者权威值的初始值,依据论文的引用数、发表时间及其刊载的期刊或会议级别设置归属该主题的全部论文质量值的初始值;然后,迭代计算该主题的所有作者权威值和论文质量值,直至结果收敛:即两次迭代计算结果之差的绝对值小于设定数值后,停止迭代运算;最后,依据权威值和质量值的高低分别对归属该主题的全部作者和论文进行递减排序;设有:作者权威值初始化、论文质量值初始化、作者权威值与论文质量值计算、作者与论文排序四个单元;作者与论文推荐模块,用于从用户模型读取用户的当前研究主题集合,对于该集合中的每个主题,读取经由权威值与质量值计算模块计算排序后的该主题的所有论文,再计算每篇论文与该用户的相似度后,删除其中相似度值小于设定门限的论文,再删除其中用户已经有操作行为的论文,选择位于前列设定数量的论文,形成该用户在该主题的论文推荐初始列表;同时,读取经由权威值与质量值计算模块计算排序后,位于该主题前列的多个作者,形成该用户在该主题的作者推荐初始列表;再分别将该用户的当前研究主题集合中所有主题的论文推荐初始列表和作者推荐初始列表进行合并后,删除其中重复的论文和作者,形成该用户的论文推荐列表和作者推荐列表,并将这两个列表保存于数据库;设有:用户与论文相似度计算、相似度过滤和作者与论文过滤三个单元;数据库,用于存储抓取的所有论文的全部信息、作者推荐列表、论文推荐列表,以及所有用户对存储的论文执行的包括阅读、收藏、分享、下载和评分的全部操作行为记录,每条操作行为记录包含:用户标识、论文标识、操作行为和起止时间。
地址 100876 北京市海淀区西土城路10号