发明名称 一种电子阅读感兴趣语义范围自动导航的方法和系统
摘要 本发明属于电子阅读技术领域,具体涉及一种电子阅读感兴趣语义范围自动导航的方法和系统。本发明系统主要由初级导航和精确导航两个级联的模块组成;首先,针对读者选定的少量内容,采用视频跟踪中的CamShift方法进行目标跟踪,并通过考察目标丢失瞬间的目标边界来确定语义范围的边界,从而得到初级导航结果;然后再根据考察相邻句子间的语义跳变来实现进一步的精确导航,并以此结果作为最终结果提交给读者;本发明能提供给读者真正感兴趣的内容,节省读者有限的阅读时间和阅读精力。
申请公布号 CN103488723A 申请公布日期 2014.01.01
申请号 CN201310419468.X 申请日期 2013.09.13
申请人 复旦大学 发明人 王晓平;肖仰华;汪卫
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海正旦专利代理有限公司 31200 代理人 陆飞;盛志范
主权项 1.一种电子阅读感兴趣语义范围自动导航系统,其特征在于由五大模块组成:文本输入模块、感兴趣区域标定模块、语义特征计算模块、语义范围导航模块、语义范围导航模块;其中:(一)<b>文本输入模块,</b>用于输入待处理的原始电子文本;(二)<b>感兴趣区域标定模块,</b>用于提供用户接口,由用户通过设定开始句和结束句的方式人工指定用户感兴趣语义内容;(三)<b>语义特征计算模块,</b>用于计算多种语义特征计算:(1)计算依据来源于各大知识库; (2)首先对知识库中的所有文章进行分词处理,统计出词与概念的对应矩阵,矩阵中的元素值为对应的词在库中计算出的TF-IDF(<i>corpus</i>)值;(3)根据此矩阵,得到任一词的语义特征,特征维数为概念个数;(四)<b>语义范围导航模块,包括:</b>初级导航子模块、精确导航子模块;以适应用户对导航精度的不同要求;其中:(1)初级导航子模块,包括:目标重心计算、方向跟踪、边界判定三个部分;(a)目标重心计算式为:<img file="663250DEST_PATH_IMAGE002.GIF" wi="107" he="42" />其中,<i>i</i>为句子位置,<i>S(i)</i>为位于位置<i>i</i>处的句子与初始“目标”之间的语义相似度,<i>N</i>为感兴趣语义段内的句子个数,<i>C</i>为目标重心;<i>S</i>(<i>i</i>)的计算:首先,根据<i>i</i>句和感兴趣文档组成的综合文本对句中的词语进行TF统计;然后,对整篇文档,以感兴趣“目标”为一篇单位文档,并将按设定的步长值进行固定宽度的窗口滑动,产生由一批“文档”组成的文档库,对待计算词语,基于该文档库计算IDF值,计算出<img file="201310419468X100001DEST_PATH_IMAGE003.GIF" wi="185" he="42" />,式中,TF是词频,IDF是逆向文档频率;对句子和感兴趣语义段中的不同词语进行语义累积,得到该句/感兴趣语义段的语义特征,具体公式为:<img file="128867DEST_PATH_IMAGE004.GIF" wi="309" he="62" />K为句子或段落中的不同词语,n为不同词语的个数,text指针对于当前文档,corpus指针对于文档库;根据公式,计算出<img file="201310419468X100001DEST_PATH_IMAGE005.GIF" wi="177" he="42" />,前者是指感兴趣语义段的语义特征向量,后者是指句子的语义特征向量;相似度计算:<img file="669701DEST_PATH_IMAGE006.GIF" wi="328" he="42" />; (b)方向跟踪:往前、往后分别进行“目标”跟踪,然后将跟踪结果进行合并,即得到初级导航的语义范围边界; (c)边界判定:视频跟踪是当反向概率图的重心位置的变化小于阈值时迭代终止,而用于语义边界判定时,则是当相似度“图”的重心位置的变化大于阈值时迭代终止,并以此时的窗口边界作为语义边界,公式如下:<img file="424030DEST_PATH_IMAGE008.GIF" wi="156" he="21" />,<i>T</i>为设定阈值,可用经验法确定;<i>C</i>(t+1)、<i>C</i>(t)分别为t+1时刻、t时刻的目标重心; (2)精确导航子模块,用于在初级导航子模块基础上进一步提高导航精度;其做法是:观察相邻句子间的语义跳变,将初始“目标”边界和“消失”边界之间的句子作为考察对象,从中选择语义变化最大的句子作为最终的感兴趣语义边界,具体包括:语义特征计算、语义相似度计算、精确边界确定三个部分:(a)语义特征计算:对每一句中的词语进行基于整篇文本的TF统计,并将每个句子看作是一篇“文档”,从而产生由一批“文档”组成的文档库,然后基于文本中包含的句子统计IDF值,得出在当前文本中的词语的<img file="692200DEST_PATH_IMAGE003.GIF" wi="185" he="42" />;对句中的不同词语进行语义累积,得到该句的语义特征,具体公式为:<img file="215586DEST_PATH_IMAGE010.GIF" wi="384" he="62" />K为句子中的不同词语,n为不同词语的个数,<i>i为</i>符合条件的句子;(b)语义相似度计算,对于符合条件的句子<i>i</i>,计算其相邻两个句子之间的语义相似度: <img file="645430DEST_PATH_IMAGE012.GIF" wi="288" he="21" />;(c)精确边界确定将相似度<img file="201310419468X100001DEST_PATH_IMAGE013.GIF" wi="37" he="42" />值最小的句子位置作为精确的语义边界,并取代原先的初级导航结果;(五)<b>结果输出显示模块</b>将语义范围导航的结果进行输出,提交给用户,并可对导航内容进行高亮显示,为用户提供更加友好的界面。
地址 200433 上海市杨浦区邯郸路220号