发明名称 一种基于多流形关联矩阵分解的无障碍文本展现方法
摘要 基于多流形关联矩阵分解的无障碍文本展现方法,从互联网抓取网页文本后,针对文本进行如下操作:首先对文本进行分词,提取文本统计特征信息,包括词频和反向文档频率,形成文本的TF‑IDF向量化特征表示;然后构建若干文本流形和单词流形,基于多流形的关联矩阵分解考虑文本与单词之间的对偶性,获得低维的文本表示和单词表示;最后对文本的低维表示进行聚类,相同或相近主题的文本分为一组,以分组的形式重新展现文本信息。本方法的优点在于:可以更好地帮助残疾人用户分主题浏览互联网上的文本信息,并快速显示同主题的网页文本集合,增强用户的体验度。
申请公布号 CN103345471B 申请公布日期 2016.08.10
申请号 CN201310217406.0 申请日期 2013.06.03
申请人 浙江大学 发明人 卜佳俊;李平;陈纯;王北斗;高珊
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州天正专利事务所有限公司 33201 代理人 王兵;黄美娟
主权项 一种基于多流形关联矩阵分解的无障碍文本展现方法,该方法的特征在于从互联网抓取网页文本后,针对文本进行以下操作:1)对文本进行分词,提取文本统计特征信息,包括词频和反向文档频率,形成文本的TF‑IDF向量化特征表示;2)构建若干文本流形和单词流形,基于多流形的关联矩阵分解考虑文本与单词之间的对偶性,获得低维的文本表示和单词表示;3)对文本的低维表示进行聚类,相同或相近主题的文本分为一组,以分组的形式重新展现文本信息;所述的步骤1)中的提取文本统计特征信息的具体步骤是:1.1)每个网页文本可看成一个文档,对文本提取两种统计信息,即词频(TF:Term Frequency)和反向文档频率(IDF:Inverse Document Frequency),若文本中出现的单词有m个,则形成m维的TF‑IDF向量化特征表示;1.2)对所有文本的TF‑IDF特征表示进行统一的归一化处理;所述的步骤2)中的构建若干文本流形和单词流形的具体步骤是:2.1)流形结构能够反映数据的本征结构,它通过图拉普拉斯矩阵进行构建,而文本流形和单词流形能分别反映文本数据和单词数据的本征结构;2.2)构建文本的图拉普拉斯矩阵L<sub>s</sub>,首先从互联网上获取n个网页文本,第i个文本的特征表示为<img file="FDA0000922317780000011.GIF" wi="86" he="78" />第j个文本的特征表示为<img file="FDA0000922317780000013.GIF" wi="87" he="89" />将每个文本看成无向图上的顶点,若两个文本的欧式距离较近,则在相应的顶点间连接一条边并赋予边权重,这样可以建立一张反映文本数据流形结构的无向图;各文本间的关联权重组成大小为n×n的权重矩阵W<sub>s</sub>,对W<sub>s</sub>的每列元素依次累加并放置在对角矩阵D<sub>s</sub>的对角线上,D<sub>s</sub>中非对角线上的元素均置为0,则可通过L<sub>s</sub>=D<sub>s</sub>‑W<sub>s</sub>得到文本的图拉普拉斯矩阵L<sub>s</sub>;2.3)构建若干文本的图拉普拉斯矩阵L<sub>s</sub>,通过赋予无向图中所连接边的不同权重W<sub>s</sub>实现,即利用三种不同的权重策略:二值权重、余 弦相似度和高斯核权重;若<img file="FDA0000922317780000021.GIF" wi="62" he="79" />与<img file="FDA0000922317780000022.GIF" wi="64" he="88" />的欧式距离较远,即两个顶点间无边连接,则两个文本的边权重为0;若<img file="FDA0000922317780000023.GIF" wi="60" he="83" />与<img file="FDA0000922317780000024.GIF" wi="64" he="86" />的欧式距离较近,即两个顶点间有边连接,则:a.对于二值权重,两个文本的边权重为1;b.对于余弦相似度,两个文本的边权重为<img file="FDA0000922317780000025.GIF" wi="207" he="108" />其中(·)<sup>T</sup>表示向量或矩阵的转置;c.对于高斯核权重,两个文本的边权重为<img file="FDA0000922317780000026.GIF" wi="391" he="135" />其中|·|表示向量的l<sub>2</sub>范数,实数参数σ>0表示高斯核的带宽,通过设置不同的带宽参数,可以得到不同的高斯核权重;2.4)构建单词的图拉普拉斯矩阵L<sub>f</sub>,根据文本与单词间的对偶性,每个单词的特征表示维度为n,第i个单词的特征表示为<img file="FDA0000922317780000027.GIF" wi="79" he="87" />第j个单词的特征表示为<img file="FDA0000922317780000028.GIF" wi="79" he="101" />将每个单词看成无向图上的顶点,若两个单词的欧式距离较近,则在相应的顶点间连接一条边并赋予边权重,这样可以建立一张反映单词数据流形结构的无向图;各单词间的关联权重组成大小为m×m的权重矩阵W<sub>f</sub>,对W<sub>f</sub>的每列元素依次累加并放置在对角矩阵D<sub>f</sub>的对角线上,D<sub>f</sub>中非对角线上的元素均置为0,则可通过L<sub>f</sub>=D<sub>f</sub>‑W<sub>f</sub>得到单词的图拉普拉斯矩阵L<sub>f</sub>;2.5)构建若干单词的图拉普拉斯矩阵L<sub>f</sub>,其具体方法与构建若干文本的图拉普拉斯矩阵L<sub>s</sub>相同;步骤2)中的多流形关联矩阵分解具体步骤是:3.1)假设从互联网获得n个文本,这些文本涉及c<sub>s</sub>个主题,每个文本的特征表示为矩阵的列向量,则全部文本形成一个维度为m×n的数据矩阵X<sub>s</sub>;组成文本的单词有m个,这些单词涉及c<sub>f</sub>个主题,每个单词的特征表位为矩阵的列向量,则全部单词形成一个维度为 n×m的数据矩阵X<sub>f</sub>;由于文本与单词间的协同对偶关系,则满足<img file="FDA0000922317780000031.GIF" wi="238" he="92" />将文本和单词数据矩阵合并为一个维度为(n+m)×(n+m)的关联矩阵<img file="FDA0000922317780000032.GIF" wi="367" he="146" />其中O表示全零矩阵,其维度由文本和单词的个数确定;3.2)将文本的数据矩阵分解成三部分,即<img file="FDA0000922317780000033.GIF" wi="326" he="85" />其中大小为m×c<sub>f</sub>的矩阵V<sub>f</sub>是单词的低维表示,大小为n×c<sub>s</sub>的矩阵V<sub>s</sub>是文本的低维表示,大小为c<sub>f</sub>×c<sub>s</sub>的矩阵S<sub>f</sub>为压缩的单词数据表示;类似地,将单词的数据矩阵分解成三部分,即<img file="FDA0000922317780000034.GIF" wi="332" he="96" />其中大小为c<sub>s</sub>×c<sub>f</sub>的矩阵S<sub>s</sub>为压缩的文本数据表示;这样,可得到大小为(n+m)×(c<sub>f</sub>+c<sub>s</sub>)的关联低维表示矩阵<img file="FDA0000922317780000035.GIF" wi="357" he="151" />其中O表示全零矩阵,其维度由文本和单词的个数以及所涉及的主题数确定;还可以得到大小为(c<sub>f</sub>+c<sub>s</sub>)×(c<sub>f</sub>+c<sub>s</sub>)的关联低维表示矩阵<img file="FDA0000922317780000036.GIF" wi="351" he="147" />其中O表示全零矩阵,其维度由文本和单词所涉及的主题数确定;3.3)根据不同的权重策略分别构建q个文本流形和q个单词流形,即<img file="FDA0000922317780000037.GIF" wi="270" he="87" />和<img file="FDA0000922317780000038.GIF" wi="287" he="99" />构建q个大小为(n+m)×(n+m)的关联流形矩阵,则第i个关联流形矩阵表示为<img file="FDA0000922317780000039.GIF" wi="383" he="175" />其中O表示全零矩阵,其维度由文本和单词的个数确定;为了更好地逼近真实的数据流形,赋予每个流形一个加权系数μ<sub>i</sub>>0,形成多个流形的线性组合,即<img file="FDA00009223177800000310.GIF" wi="358" he="97" />且满足条件<img file="FDA00009223177800000311.GIF" wi="303" he="95" />3.4)利用多流形的关联矩阵分解最小化正则化的目标函数<img file="FDA00009223177800000312.GIF" wi="1264" he="101" /><img file="FDA00009223177800000313.GIF" wi="804" he="87" />其中,|·|<sub>F</sub>为矩阵范数,|·|为向量的l<sub>2</sub>范数,Tr(·)为矩阵的迹,正则化因子α>0和β>0分别用来调节流形结构的贡献以及避免过拟合;通过求解该目标函数得到的文本低维表示,能够逼近原始文本数据的本征结构,并同时保持文本数据和单词数据的局部几何结构,使得相同主题的文本距离尽可能接近。
地址 310027 浙江省杭州市西湖区浙大路38号