发明名称 图书交叉阅读方法
摘要 本发明公开了一种图书交叉阅读方法。图书交叉阅读推荐技术本质上是一种基于文档的检索,即将一个文档作为查询,去检索语义相似的其他文档,图书交叉阅读推荐技术首先将每个图书章节通过语义相似敏感哈希算法生成文档指纹,并保证两个语义相似的图书章节的文档指纹其海明距离也相近,然后将文档指纹和图书元数据、章节标题等异构信息统一建立索引,最后基于用户的访问日志和图书元数据信息,重排序候选推荐文档。本发明将图书章节投影到语义相关的文档指纹中,并将文档指纹、元数据信息、章节标题、用户点击等异构信息融入到统一索引中,基于用户的阅读章节,快速有效地推荐语义相关的其他章节,辅助用户对图书内容的理解、实现交叉阅读。
申请公布号 CN103714118B 申请公布日期 2017.02.08
申请号 CN201310601627.8 申请日期 2013.11.22
申请人 浙江大学 发明人 鲁伟明;杨善松;魏宝刚;庄越挺
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 张法高
主权项 一种图书交叉阅读方法,其特征在于包括它的步骤如下:(1)构建图书章节指纹:融合图书章节特征向量和图书类别特征向量,为图书的每个章节构建主题敏感向量,然后再用相似度哈希算法构建图书章节指纹;(2)构建统一索引:将图书章节指纹转变为语义单词集合,并用全文检索方法为语义单词集合、图书章节名称、图书分类信息建立统一索引;(3)图书章节推荐:依据图书章节间的距离,为用户推荐相关图书章节,并基于用户的访问行为,利用流形排序算法进行重排序;所述的步骤(1)具体包括:2.1对于所有的图书,根据目录将一本图书拆分为章节集合,每个章节作为一个文档进行保存,同时将章节的名称、图书的名称、图书的分类信息作为章节的元数据保存;2.2对所有的章节进行自然语言处理,通过分词、词性标注、停用词去除和词组检测步骤提取章节包含的名词和名词短语,将章节转变为单词的集合;2.3根据章节所在图书的分类,构建每个分类的章节集合,分别计算每个章节中所有单词的tfidf(t,d)值和每个分类中所有单词的tfidf(t,c)值:tfidf(t,d)=tf(t,d)*idf(t,D),d∈Dtfidf(t,c)=tf(t,c)*idf(t,C),c∈C其中tf(t,d)是指单词t在文档d中出现的次数,idf(t,D)被称为逆文档频率,由总文档数目|D|除以包含单词t的文档的数目,再将得到的商取对数计算得到,tf(t,c)是指单词t在分类c中出现的次数,idf(t,C)则由总分类数|C|除以包含单词t的分类的数目,再将得到的商取对数计算得到;当tfidf(t,c)大时,表示单词t在分类c中常出现,而在其他的分类中则不常出现,此时单词t被认为是分类c的主题相关词,当tfidf(t,d)大而tfidf(t,c)小时,则单词t被认为是文档d的文档相关词,而tfidf(t,d)小时,则单词t被认为是停用词;选择tfidf(t,c)大于阈值δ的单词作为类别的主题相关词,即T(c)={t|tfidf(t,c)&gt;,c∈C},其中δ∈[0,1);文档特征向量用<img file="FDA0001155634770000025.GIF" wi="740" he="82" />表示,其中w<sub>i</sub>(d)表示文档主题相关词的tfidf(t,d)值,类别特征向量用<img file="FDA0001155634770000021.GIF" wi="714" he="67" />表示,其中w<sub>i</sub>(c)表示类别主题相关词的tfidf(t,c)值,最后根据<img file="FDA0001155634770000023.GIF" wi="43" he="67" />和<img file="FDA0001155634770000024.GIF" wi="85" he="60" />调节文档向量为<img file="FDA0001155634770000022.GIF" wi="824" he="86" />其中w′<sub>i</sub>(d)=w<sub>i</sub>(d)*w<sub>i</sub>(c);2.4构建图书章节指纹F的相似度哈希算法的步骤包括:首先输入文档d的特征向量<img file="FDA0001155634770000026.GIF" wi="74" he="74" />并初始化向量V,向量V每个元素置为零,然后对于文档d中的每个单词w<sub>i</sub>,应用哈希函数θ,得到向量<img file="FDA00011556347700000220.GIF" wi="291" he="75" />对于<img file="FDA0001155634770000029.GIF" wi="56" he="67" />中的每个元素<img file="FDA0001155634770000027.GIF" wi="91" he="88" />如果<img file="FDA0001155634770000028.GIF" wi="194" he="88" />那么V<sub>j</sub>=V<sub>j</sub>+w′<sub>i</sub>(d),否则V<sub>j</sub>=V<sub>j</sub>‑w′<sub>i</sub>(d),最后处理完文档d中的所有单词后,对于所有的{i=1,……,l},l是向量V的长度,如果V<sub>i</sub>&gt;0,那么F<sub>i</sub>=1,否则F<sub>i</sub>=0。
地址 310027 浙江省杭州市浙大路38号