一种基于多流形关联矩阵分解的无障碍文本展现方法,申请号CN201310217406.0-传众专利搜索

发明名称	一种基于多流形关联矩阵分解的无障碍文本展现方法
摘要	基于多流形关联矩阵分解的无障碍文本展现方法，从互联网抓取网页文本后，针对文本进行如下操作：首先对文本进行分词，提取文本统计特征信息，包括词频和反向文档频率，形成文本的TF‑IDF向量化特征表示；然后构建若干文本流形和单词流形，基于多流形的关联矩阵分解考虑文本与单词之间的对偶性，获得低维的文本表示和单词表示；最后对文本的低维表示进行聚类，相同或相近主题的文本分为一组，以分组的形式重新展现文本信息。本方法的优点在于：可以更好地帮助残疾人用户分主题浏览互联网上的文本信息，并快速显示同主题的网页文本集合，增强用户的体验度。
申请公布号	CN103345471B	申请公布日期	2016.08.10
申请号	CN201310217406.0	申请日期	2013.06.03
申请人	浙江大学	发明人	卜佳俊;李平;陈纯;王北斗;高珊
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	杭州天正专利事务所有限公司 33201	代理人	王兵;黄美娟
主权项	一种基于多流形关联矩阵分解的无障碍文本展现方法，该方法的特征在于从互联网抓取网页文本后，针对文本进行以下操作：1)对文本进行分词，提取文本统计特征信息，包括词频和反向文档频率，形成文本的TF‑IDF向量化特征表示；2)构建若干文本流形和单词流形，基于多流形的关联矩阵分解考虑文本与单词之间的对偶性，获得低维的文本表示和单词表示；3)对文本的低维表示进行聚类，相同或相近主题的文本分为一组，以分组的形式重新展现文本信息；所述的步骤1)中的提取文本统计特征信息的具体步骤是：1.1)每个网页文本可看成一个文档，对文本提取两种统计信息，即词频(TF:Term Frequency)和反向文档频率(IDF:Inverse Document Frequency)，若文本中出现的单词有m个，则形成m维的TF‑IDF向量化特征表示；1.2)对所有文本的TF‑IDF特征表示进行统一的归一化处理；所述的步骤2)中的构建若干文本流形和单词流形的具体步骤是：2.1)流形结构能够反映数据的本征结构，它通过图拉普拉斯矩阵进行构建，而文本流形和单词流形能分别反映文本数据和单词数据的本征结构；2.2)构建文本的图拉普拉斯矩阵L<sub>s</sub>，首先从互联网上获取n个网页文本，第i个文本的特征表示为<img file="FDA0000922317780000011.GIF" wi="86" he="78" />第j个文本的特征表示为<img file="FDA0000922317780000013.GIF" wi="87" he="89" />将每个文本看成无向图上的顶点，若两个文本的欧式距离较近，则在相应的顶点间连接一条边并赋予边权重，这样可以建立一张反映文本数据流形结构的无向图；各文本间的关联权重组成大小为n×n的权重矩阵W<sub>s</sub>，对W<sub>s</sub>的每列元素依次累加并放置在对角矩阵D<sub>s</sub>的对角线上，D<sub>s</sub>中非对角线上的元素均置为0，则可通过L<sub>s</sub>＝D<sub>s</sub>‑W<sub>s</sub>得到文本的图拉普拉斯矩阵L<sub>s</sub>；2.3)构建若干文本的图拉普拉斯矩阵L<sub>s</sub>，通过赋予无向图中所连接边的不同权重W<sub>s</sub>实现，即利用三种不同的权重策略：二值权重、余弦相似度和高斯核权重；若<img file="FDA0000922317780000021.GIF" wi="62" he="79" />与<img file="FDA0000922317780000022.GIF" wi="64" he="88" />的欧式距离较远，即两个顶点间无边连接，则两个文本的边权重为0；若<img file="FDA0000922317780000023.GIF" wi="60" he="83" />与<img file="FDA0000922317780000024.GIF" wi="64" he="86" />的欧式距离较近，即两个顶点间有边连接，则：a.对于二值权重，两个文本的边权重为1；b.对于余弦相似度，两个文本的边权重为<img file="FDA0000922317780000025.GIF" wi="207" he="108" />其中(·)<sup>T</sup>表示向量或矩阵的转置；c.对于高斯核权重，两个文本的边权重为<img file="FDA0000922317780000026.GIF" wi="391" he="135" />其中\|·\|表示向量的l<sub>2</sub>范数，实数参数σ＞0表示高斯核的带宽，通过设置不同的带宽参数，可以得到不同的高斯核权重；2.4)构建单词的图拉普拉斯矩阵L<sub>f</sub>，根据文本与单词间的对偶性，每个单词的特征表示维度为n，第i个单词的特征表示为<img file="FDA0000922317780000027.GIF" wi="79" he="87" />第j个单词的特征表示为<img file="FDA0000922317780000028.GIF" wi="79" he="101" />将每个单词看成无向图上的顶点，若两个单词的欧式距离较近，则在相应的顶点间连接一条边并赋予边权重，这样可以建立一张反映单词数据流形结构的无向图；各单词间的关联权重组成大小为m×m的权重矩阵W<sub>f</sub>，对W<sub>f</sub>的每列元素依次累加并放置在对角矩阵D<sub>f</sub>的对角线上，D<sub>f</sub>中非对角线上的元素均置为0，则可通过L<sub>f</sub>＝D<sub>f</sub>‑W<sub>f</sub>得到单词的图拉普拉斯矩阵L<sub>f</sub>；2.5)构建若干单词的图拉普拉斯矩阵L<sub>f</sub>，其具体方法与构建若干文本的图拉普拉斯矩阵L<sub>s</sub>相同；步骤2)中的多流形关联矩阵分解具体步骤是：3.1)假设从互联网获得n个文本，这些文本涉及c<sub>s</sub>个主题，每个文本的特征表示为矩阵的列向量，则全部文本形成一个维度为m×n的数据矩阵X<sub>s</sub>；组成文本的单词有m个，这些单词涉及c<sub>f</sub>个主题，每个单词的特征表位为矩阵的列向量，则全部单词形成一个维度为 n×m的数据矩阵X<sub>f</sub>；由于文本与单词间的协同对偶关系，则满足<img file="FDA0000922317780000031.GIF" wi="238" he="92" />将文本和单词数据矩阵合并为一个维度为(n+m)×(n+m)的关联矩阵<img file="FDA0000922317780000032.GIF" wi="367" he="146" />其中O表示全零矩阵，其维度由文本和单词的个数确定；3.2)将文本的数据矩阵分解成三部分，即<img file="FDA0000922317780000033.GIF" wi="326" he="85" />其中大小为m×c<sub>f</sub>的矩阵V<sub>f</sub>是单词的低维表示，大小为n×c<sub>s</sub>的矩阵V<sub>s</sub>是文本的低维表示，大小为c<sub>f</sub>×c<sub>s</sub>的矩阵S<sub>f</sub>为压缩的单词数据表示；类似地，将单词的数据矩阵分解成三部分，即<img file="FDA0000922317780000034.GIF" wi="332" he="96" />其中大小为c<sub>s</sub>×c<sub>f</sub>的矩阵S<sub>s</sub>为压缩的文本数据表示；这样，可得到大小为(n+m)×(c<sub>f</sub>+c<sub>s</sub>)的关联低维表示矩阵<img file="FDA0000922317780000035.GIF" wi="357" he="151" />其中O表示全零矩阵，其维度由文本和单词的个数以及所涉及的主题数确定；还可以得到大小为(c<sub>f</sub>+c<sub>s</sub>)×(c<sub>f</sub>+c<sub>s</sub>)的关联低维表示矩阵<img file="FDA0000922317780000036.GIF" wi="351" he="147" />其中O表示全零矩阵，其维度由文本和单词所涉及的主题数确定；3.3)根据不同的权重策略分别构建q个文本流形和q个单词流形，即<img file="FDA0000922317780000037.GIF" wi="270" he="87" />和<img file="FDA0000922317780000038.GIF" wi="287" he="99" />构建q个大小为(n+m)×(n+m)的关联流形矩阵，则第i个关联流形矩阵表示为<img file="FDA0000922317780000039.GIF" wi="383" he="175" />其中O表示全零矩阵，其维度由文本和单词的个数确定；为了更好地逼近真实的数据流形，赋予每个流形一个加权系数μ<sub>i</sub>＞0，形成多个流形的线性组合，即<img file="FDA00009223177800000310.GIF" wi="358" he="97" />且满足条件<img file="FDA00009223177800000311.GIF" wi="303" he="95" />3.4)利用多流形的关联矩阵分解最小化正则化的目标函数<img file="FDA00009223177800000312.GIF" wi="1264" he="101" /><img file="FDA00009223177800000313.GIF" wi="804" he="87" />其中，\|·\|<sub>F</sub>为矩阵范数，\|·\|为向量的l<sub>2</sub>范数，Tr(·)为矩阵的迹，正则化因子α＞0和β＞0分别用来调节流形结构的贡献以及避免过拟合；通过求解该目标函数得到的文本低维表示，能够逼近原始文本数据的本征结构，并同时保持文本数据和单词数据的局部几何结构，使得相同主题的文本距离尽可能接近。
地址	310027 浙江省杭州市西湖区浙大路38号