主权项 |
一种基于最佳内容重构的无障碍快速阅读方法,从互联网抓取网页后,针对每个网页进行以下操作:1)提取网页中的文章<img file="FDA0000931003480000011.GIF" wi="630" he="87" />其中D为文章的句子向量集合,<img file="FDA0000931003480000012.GIF" wi="66" he="87" />为句子向量表示文章d的第i个句子;2)利用词性标注的方法对集合D中的句子进行名词,介词的抽取得到句子部分集合<img file="FDA0000931003480000013.GIF" wi="647" he="101" />其中句子部分<img file="FDA0000931003480000014.GIF" wi="62" he="95" />为句子向量<img file="FDA0000931003480000015.GIF" wi="58" he="85" />抽取名词、介词所得,然后将任意的句子部分<img file="FDA0000931003480000016.GIF" wi="59" he="93" />表示成TF向量<img file="FDA0000931003480000017.GIF" wi="86" he="94" />则句子部分P可以表示为TF矩阵<img file="FDA0000931003480000018.GIF" wi="623" he="101" />3)使用最佳内容重构的方法根据TF矩阵S从P选取k个句子部分组成集合<img file="FDA0000931003480000019.GIF" wi="605" he="95" />作为文章的摘要,其中<img file="FDA00009310034800000110.GIF" wi="59" he="101" />是选取出的第i个句子部分,X是P的真子集。4)根据Skimming快速阅读框架要求将k个句子部分中的名词与介词按照原文中出现的顺序排列作为摘要文本;通过读屏软件自由切换摘要与原文的功能实现视力障碍人士快速阅读。 |