发明名称 一种图书关键字自动生成的方法
摘要 本发明公开了一种图书关键字自动生成方法。确定图书与作者的关系,从互联网上抓取书评,将其分词并标注词性,留下名词作候补关键词;通过谷歌检索候补关键词在维基百科中出现的文档数目以初步评定重要性,过滤语气词、错别字;将作者、图书、评论和候补关键词作为四种节点,将其互相间的关系作为边,构建四部图;基于四部图,运用以图书为中心的吸收态随机行走算法挑选出最重要的候补关键词作为图书关键字。本发明考虑了同一作者著作的主题一致性、内容相关性及读者反馈,关键词正确率高;充分覆盖读者不同角度的书评,关键词多样化;数据来自互联网,书评数量庞大、涵盖面广,方法覆盖面广。
申请公布号 CN101826102B 申请公布日期 2012.07.25
申请号 CN201010133153.5 申请日期 2010.03.26
申请人 浙江大学 发明人 庄越挺;吴江琴;张亮;张寅;魏宝刚
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 张法高
主权项 一种图书关键字的自动生成方法,其特征在于包括以下步骤:(1)确定图书与作者的对应关系,从互联网网站上抓取对应图书的对内容、风格、价值表达观点和看法的文学评论及其流行度,将图书评论分词,用词性标注器将其中的词标注词性,留下其中的名词作为候补关键词;(2)使用维基百科衡量器,通过Google检索候补关键词在维基百科中出现的文档数目和维基百科文档总数,利用公式WIKIIDF(i)=log(N/M)初步评定候补关键词的全局重要性,过滤语气词、错别字,其中WIKI_IDF表示通过维基百科衡量器得到的词的重要性,i为目标候补关键词,M为查询得到的文档数,N为中文维基百科文档总数;(3)将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相之间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、维基百科衡量器、文本长度和流行度构建四部图;(4)基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要性进行排序,挑出排序最高的几个候补关键词作为图书的关键字。
地址 310027 浙江省杭州市西湖区浙大路38号