发明名称 一种基于多视图学的科学主题提取方法
摘要 基于多视图学的科学主题提取方法,从论文数据库中获取论文数据,作为即将进行科学主题提取的目标文档;针对每个目标文档,提取该文档中的多个视图的数据信息,作为科学主题提取的依据;对每个视图的数据信息进行简单的数据预处理并针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量;利用多视图学的方法,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题;对于每一类目标文档,分别提取它们的科学主题,并以多个关键词的形式表示出来。本方法的优点在于,弥补了传统方法只考虑单一方面数据信息的不足,更好的利用多方面的数据信息,借助它们的互补关系和潜在主题的一致性辅助聚类,得到更好的科学主题提取效果。
申请公布号 CN103530316B 申请公布日期 2016.06.01
申请号 CN201310416384.0 申请日期 2013.09.12
申请人 浙江大学 发明人 王灿;王哲;卜佳俊;陈纯;于智
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州天正专利事务所有限公司 33201 代理人 王兵;黄美娟
主权项 一种基于多视图学习的科学主题提取方法,该方法的特征在于:1)从论文数据库中获取论文数据,作为即将进行科学主题提取的目标文档;2)针对每个目标文档,提取该文档中的多个视图的数据信息,作为科学主题提取的依据;3)根据不同视图数据信息的内容特点不同,对每个视图的数据信息进行简单的数据预处理;4)针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量;5)利用多视图学习的方法,借助多个视图的数据信息,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题;6)对于每一类目标文档,分别提取它们的科学主题,科学主题以多个关键词的形式表示;步骤2)中所述的多个视图的数据信息,包括:21)根据应用的实际需求和目标文档所包含数据信息的实际情况,选取t个不同视图的数据信息,论文数据包括文章的正文,标题,摘要,关键字,共同作者以及参考文献多方面的数据信息,当选取其中的四种:标题,摘要,关键字,共同作者这四个视图的数据信息时,t=4;步骤3)中所述的根据不同视图数据信息的内容特点不同,对每个视图的数据信息进行简单的数据预处理,包括:31)对于论文数据的正文、标题、摘要,去掉所有停止词将单词词干化,即去掉ed,ing分词形式或ment词缀,只保留词干形式;32)对于论文数据的关键字、共同作者和参考文献不需要进行步骤31)中的操作;步骤4)中所述的针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量,包括:41)共同作者视图的处理方式为:遍历所有目标文档的作者部分,统计所有不同的作者姓名,将每一个目标文档的共同作者视图用向量的形式表示,定义向量<img file="FDA0000946551150000011.GIF" wi="407" he="78" />j表示第j个目标文档,m为所有文档的共同作者部分中不同作者的个数,<img file="FDA0000946551150000012.GIF" wi="61" he="69" />取值0或1,i≤m,如果第i个作者是第j个目标文档的作者之一,<img file="FDA0000946551150000013.GIF" wi="59" he="65" />取值为1,否则<img file="FDA0000946551150000014.GIF" wi="56" he="68" />取值为0;共同作者视图、关键字视图和参考文献视图处理方式相同;42)摘要视图的处理方式为:遍历所有目标文档的摘要部分,统计所有不同的单词,将每一个目标文档的摘要视图用向量的形式表示,定义向量<img file="FDA0000946551150000026.GIF" wi="404" he="78" />j表示第j个目标文档,m为所有文档的摘要部分中不同单词的个数,<img file="FDA0000946551150000027.GIF" wi="56" he="66" />表示第i个单词在向量v<sub>j</sub>中的权重,i≤m,用它的TF‑IDF值表示,即<img file="FDA0000946551150000021.GIF" wi="870" he="143" />其中num<sub>j</sub>(i)为在目标文档j的摘要部分中,第i个单词出现的个数,total(words)为目标文档j的摘要部分包含的单词总数,total(documents)为文档总数,documents(i)为摘要部分中含有第i个单词的文档的数目,论文正文视图、标题视图和摘要视图处理方式相同;43)针对每一个视图,将每一个目标文档在该视图下对应的向量拼接起来构成一个数据矩阵,定义视图i对应的数据矩阵为W<sup>(i)</sup>,i≤t,t为视图个数,W<sup>(i)</sup>的每一个行向量就是该视图下每一个目标文档j的表示向量<img file="FDA0000946551150000028.GIF" wi="403" he="78" />步骤5)中所述的利用多视图学习的方法,借助多个视图的数据信息,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题,包括:51)假定我们有t个不同的视图,用W<sup>(1)</sup>,W<sup>(2)</sup>,……,W<sup>(t)</sup>表示,定义下述公式<maths num="0001"><math><![CDATA[<mrow><munder><mi>min</mi><mrow><mi>F</mi><mo>&Element;</mo><msup><mi>R</mi><mrow><mi>n</mi><mo>*</mo><mi>k</mi></mrow></msup><mo>,</mo><mi>&mu;</mi><mo>&Element;</mo><msup><mi>R</mi><mi>k</mi></msup></mrow></munder><mi>t</mi><mi>r</mi><mrow><mo>(</mo><msup><mi>F</mi><mi>T</mi></msup><mo>(</mo><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>t</mi></munderover><msub><mi>&mu;</mi><mi>i</mi></msub><msubsup><mi>L</mi><mrow><mi>s</mi><mi>y</mi><mi>m</mi></mrow><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup></mrow><mo>)</mo><mi>F</mi><mo>)</mo></mrow><mo>+</mo><mi>&gamma;</mi><msup><mrow><mo>||</mo><mi>&mu;</mi><mo>||</mo></mrow><mn>2</mn></msup></mrow>]]></math><img file="FDA0000946551150000022.GIF" wi="772" he="135" /></maths><maths num="0002"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo></mrow></mtd><mtd><mrow><msup><mi>F</mi><mi>T</mi></msup><mi>F</mi><mo>=</mo><msub><mi>I</mi><mi>k</mi></msub><mo>,</mo><msubsup><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>t</mi></msubsup><msub><mi>&mu;</mi><mi>i</mi></msub><mo>=</mo><mn>1</mn><mo>,</mo><msub><mi>&mu;</mi><mi>i</mi></msub><mo>&GreaterEqual;</mo><mn>0</mn><mo>,</mo><mi>i</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>...</mn><mo>,</mo><mi>t</mi></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000946551150000023.GIF" wi="862" he="87" /></maths>其中k为聚类个数,根据实际情况人为设定;D<sup>(i)</sup>是对角矩阵<img file="FDA0000946551150000024.GIF" wi="342" he="93" />L<sup>(i)</sup>=D<sup>(i)</sup>‑W<sup>(i)</sup>并且<img file="FDA0000946551150000025.GIF" wi="535" he="86" />tr()是矩阵的迹,运算符号||·||<sup>2</sup>是求向量模的平方,γ≥0是可调参数,μ是t维行向量,μ<sub>i</sub>代表计算过程中第i个视图在t个视图中的权重,i≤t,F是一个n*k维的向量,n为所有文档的总数,求解上述公式得到最优解F,F为综合考虑多个视图的内在联系,求得的所有文档在低维空间下的矩阵表示;52)使用K‑means算法对F进行聚类,将所有文档划分到k个不同的类,其中k为聚类个数,K‑means算法是最为经典的基于划分的聚类方法,它的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直至得到聚类结果;步骤6)中所述的对于每一类目标文档,分别提取它们的科学主题,科学主题以多个关键词的形式表示,包括:61)对于每一类目标文档,选取该类文档的某一个视图或多个视图,分别统计所有该类文档在该视图中不重复的单词,作为科学主题关键词的备选词库,如果选取的是参考文献视图,则以某一篇被引用的论文作为关键词,而不是一个简单的词,如果选取的是共同作者视图则以作者姓名作为关键词;62)对备选词库中的关键词进行排序,如果选取的论文的正文、摘要、标题视图,则按照所述TF‑IDF值进行降序排序,如果选取的是论文的共同作者、参考文献视图则按照出现次数进行降序排序;63)在备选词库中针对不同视图,根据实际情况分别选取前N个关键词,来代表这一类论文所属的科学主题。
地址 310027 浙江省杭州市西湖区浙大路38号