发明名称 面向广域网的音视频智能编目信息获取方法
摘要 面向广域网的音视频智能编目信息获取方法,属计算机应用领域。本发明特征在于,提出了基于关键词特征项位置因素的权重算法,对文档中不同位置的特征项赋予不同的加权因子,进而更准确地计算网页内容的主题相似度;综合利用网页内容相似度、超链接的URL目录层次信息、超链接的锚文本信息三方面因素,优化选择主题相似度更高的链接。对搜索到的主题页面,采用基于本体和HTML的信息提取方法自动提取出编目信息。采用改进的语义相似度计算方法,对提取到的编目信息进行规范化。本发明能够智能、自动地为编目者提供著录项信息,减轻人工劳动量,提高编目效率,能够适应专业和非专业编目者的不同需求,也能适应广域网环境。
申请公布号 CN101968819B 申请公布日期 2012.05.30
申请号 CN201010537106.7 申请日期 2010.11.05
申请人 中国传媒大学 发明人 隋爱娜;王永滨;伏文龙
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 1.一种面向广域网的音视频智能编目信息获取方法,其特征在于,包括步骤:(1)主题爬虫搜索网页采用基于关键词特征项位置因素的权重算法,计算网页内容的主题相似度;综合利用网页内容相似度、超链接的URL目录层次信息、超链接的锚文本信息三方面因素,计算链接主题相似度;基于关键词特征项位置因素的权重算法的具体步骤如下:1)定义特征项出现的不同位置,并对不同位置的特征项赋予不同的位置权重因子;将关键词特征项出现的位置定义为3类:主题标签,标题标签,正文其他位置;这3类位置对于特征项的重要性是依次递减的;然后引入位置权重因子PG表示特征项在不同位置的重要性,定义PG<sub>i</sub>(i=1,2,3)为特征项在不同位置所对应的权重因子,i代表上述3类位置,规定:PG<sub>i</sub>>=PG<sub>i+1</sub>(1<=i<=2);定义TF′<sub>i</sub> (i=1,2,3)为特征项t在不同位置出现的频率;2)计算基于位置因素的特征项权重;根据特征项的位置,计算页面文档D中某关键词特征项t的权重DWeight(t),公式为:<img file="FSB00000652938900011.GIF" wi="640" he="94" />(公式1)链接主题相似度计算的步骤如下:1)计算当前页面内容的主题相似度:<img file="FSB00000652938900012.GIF" wi="1240" he="179" />(公式2)公式2中,D是所搜索页面文档,z表示主题Topic的维数,DWeight(j)表示D中第j个关键词特征项的权重,TopicWeight(j)表示主题Topic中的第j个主题项的权重,1≤j≤z;2)对于当前页面的每个链接,通过URL目录信息判断该链接和当前页面是否目录位置相邻,如果是,根据当前页面内容的主题相似度来预估目标页面的相似度,如果否,则通过对锚文本的分析来评价链接的相似度;计算公式如下:<img file="FSB00000652938900013.GIF" wi="1161" he="140" />(公式3)其中:D——当前网页;L——D网页中的超链接锚文本;C——L指向的目标网页;Sim(D)——网页D的主题相似度; Sim(L)——链接L的锚文本的主题相似度;Sim(C)——对L指向目标网页C主题相似度的预估值;x——影响系数,x=0~1,x用于调节D和锚L两个因素的主题相似度的权重分配,x越大,则公式更倾向于锚文本,x越小则更倾向于父网页的主题相似度;(2)基于本体和HTML的编目信息提取采用基于HTML结构的信息提取方法对HTML页面结构进行分析定位,生成抽取规则,并通过基于本体的信息提取方法解决语义问题;具体处理步骤如下:1)构建本体:构建多媒体内容提取本体,本体中的概念定义为多媒体文件内容描述信息的编目著录项,属性定义为各概念之间的关系,概念的标签属性定义各提取数据源中提取著录项对应的多义词;2)解析网页:清洗HTML页面,改正页面错误信息,去掉冗余信息,转换成XHTML文档,然后将该文档解析成DOM树结构;3)生成提取规则:根据基于树路径和文本内容结合的定位方式定位信息,生成XPath路径,生成提取规则;4)读取提取规则:读取步骤3)生成的提取规则;5)读取本体:读取多媒体内容提取本体,并对本体中的类、属性和实例进行操作;6)执行提取算法:将步骤4)和5)的提取规则和本体作为输入,执行提取算法;具体步骤为:将HTML解析形成的DOM树中待提取信息块中的具体信息分割成key-value;读取多媒体文件提取本体中的概念以及概念的标签属性值;如果DOM树中的key与本体中的概念的标签属性值对应,则将本体的概念和对应的value值保存到XML文件中,即,将网页信息块中包含的所有数据提取出来;提取出来的具体信息可以作为本体中概念的具体实例添加到提取本体中,扩展本体模型;7)信息融合存储:根据每个网页数据源提取出相应的提取结果,多个数据源对应各提取结果文件,每个结果文件所包含的信息有相同的也有不同的;系统通过对比分析各个提取结果文件中的信息,进行信息融合,最终生成一个提取结果文件;(3)基于自然语言的编目信息规范化采用语义相似度算法,并给出了改进的概念语义表达式相似度的计算方法,对步骤(2)提取到的编目信息与规范词库的信息进行相似度计算,进而确定规范化的编目项内容;具体过程为:系统读入步骤(2)中提取到的编目项信息,以及知网词库和义原树文件,找到匹配的两个词语,之后计算两个词语的语义相似度;一个汉语词语由一个或多个概念组成,两个词语的相似度是各概念的语义相似度的最大值,把两个汉语词语之间的相似度问题归结到两个概念之间的相似度问题,而所有的概念都最终用义原来表示,按照下列步骤,从义 原相似度计算开始,逐步计算两个汉语词语的语义相似度;1)计算义原的语义相似度在义原构成的树状层次体系中,假设两个义原X和Y在其中的路径距离为dis,dis为一个正整数,这两个义原之间的语义相似度Sim(X,Y)按公式4计算:<img file="FSB00000652938900031.GIF" wi="556" he="93" />(公式4)其中,α是表示相似度为0.5时的路径长度参数;分别按照公式4计算出第一独立义原、其他独立义原、关系义原和符号义原这四类义原的语义相似度;2)计算两个概念的语义相似度两个概念的相似度由上述四类义原的相似度加权平均得到;概念S<sub>1</sub>和概念S<sub>2</sub>之间的语义相似度Sim(S<sub>1</sub>,S<sub>2</sub>)按照公式5计算:<img file="FSB00000652938900032.GIF" wi="751" he="130" />(公式5)其中,X和Y表示两个义原,Sim<sub>q</sub>(X,Y)表示第q类义原的语义相似度,1≤q≤4;β<sub>k</sub>(1≤k≤4)是四类义原的权重,代表了四类义原对概念语义相似度的影响程度,且有β<sub>1</sub>+β<sub>2</sub>+β<sub>3</sub>+β<sub>4</sub>=1,β<sub>1</sub>≥β<sub>2</sub>≥β<sub>3</sub>≥β<sub>4</sub>;公式5中,对于权重较小但有可能相似度较大的义原,用多个义原相似度乘积的方式,使得整体相似度降低,即,主要义原的相似度值对于次要义原的相似度值起到制约作用,如果主要义原相似度比较低,那么次要义原的相似度对于整体相似度所起到的作用也要降低;3)计算两个汉语词语的语义相似度对于两个汉语词语W<sub>1</sub>和W<sub>2</sub>,如果W<sub>1</sub>有n个概念:S<sub>11</sub>,S<sub>12</sub>,……,S<sub>1n</sub>,W<sub>2</sub>有m个概念:S<sub>21</sub>,S<sub>22</sub>,……,S<sub>2m</sub>,采用步骤1)和2)计算出两个词语的每对概念的语义相似度,然后取结果的最大值,即,词语W<sub>1</sub>和词语W<sub>2</sub>的语义相似度Sim(W<sub>1</sub>,W<sub>2</sub>)是各个概念的相似度之最大值,用公式6计算:<img file="FSB00000652938900033.GIF" wi="778" he="80" />(公式6)其中,S<sub>1v</sub>表示词语W<sub>1</sub>中第v个概念,1≤v≤n,n是词语W<sub>1</sub>中概念的个数;S<sub>2w</sub>表示词语W<sub>2</sub>中第w个概念,1≤w≤m,m是词语W<sub>2</sub>中概念的个数;Sim(S<sub>1v</sub>,S<sub>2w</sub>)表示概念S<sub>1v</sub>和S<sub>2w</sub>的语义相似度,取各对概念的相似度的最大值,便得到两个词语的语义相似度。 
地址 100024 北京市朝阳区定福庄东街1号