发明名称 基于煤矿安全事件主题相关性判别方法
摘要 基于煤矿安全事件主题相关性判别方法属于Web页面主题相关性判别领域。通过对大量相关技术的分析的前提下,有选择性地改进了Web网页主题相关程性判别方法。本发明通过对该主题网页的页面结构进行深入分析以及主题相关性判别方法的研究,提出了一种基于标签和元数据的主题相关性判别和基于布尔模型的网页内容的主题相关性判别算法。为了提高用户体验,在主题搜索引擎的搜索结果界面中对搜索结果进行相关度排序。这就需要我们主题相关度进行计算,本课题的主题相关度计算方法借鉴了基于空间向量模型的网页内容主题相关性判别方法。在其基础上加以改进,使该方法不仅能计算两个网页相关程度,还能够计算出目标网页与主题的相关程度。
申请公布号 CN105701167A 申请公布日期 2016.06.22
申请号 CN201511032198.2 申请日期 2015.12.31
申请人 北京工业大学 发明人 沈琦;陈博;王宇;李婧;刘泽伟
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 11203 代理人 刘萍
主权项 基于煤矿安全事件主题相关性判别方法,其特征在于步骤如下:1)页面主题相关性判别算法该算法是由基于布尔模型的页面内容判别、基于链接标签数据与基于元数据的判别方法结合起来的使用;基于布尔模型的页面内容相关性判别方法则采用结合页面正文与主题关键词词典建立如下表达式:d={t<sub>1</sub>,w<sub>1</sub>;t<sub>2</sub>,w<sub>2</sub>;…t<sub>n</sub>,w<sub>n</sub>},其中t<sub>k</sub>表示主题特征词,w<sub>k</sub>并不是dictionary中关键词的权重,而是主题特征词t<sub>k</sub>是否在正文中出现,出现为1,反之为0;再通过公式1计算出的主题相关度值;<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>S</mi><mi>i</mi><mi>m</mi><mo>=</mo><msubsup><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msub><mi>w</mi><mi>k</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000899130330000011.GIF" wi="1102" he="81" /></maths>由上文介绍的煤矿安全事件相关网页正文特点可知,发现只要是与主题相关的网页,其内容中包含的主题关键词都超过5种;也就是计算出的Sim不小于5,就认定该页面主题相关;先介绍用到的几个数据结构:1、url_queue:主要用来存放初始URL链接;2、crawled_queue:主要用来存放已经判别主题相关的URL链接与已经加载过的初始URL链接,避免重复判别;3、topic_queue:主要用来存放与搜索主题相关的URL链接;4、second_topic_queue:二级判别队列,主要用来存放经过基于链接标签数据判别之后,判别不相关的URL链接;5、i:整型变量,用来表示当前页面中的URL链接序号;6、depth:整型变量,用来表示当前页面的遍历深度;7、dictionary:主题关键词词典,记录煤矿安全事件领域的主题关键词;该算法的具体描述如下:第一步,把种子URL链接置入url_queue队列,并置空其它的队列,i赋值为1,depth赋值为1;第二步,url_queue队列出队,取出链接,并加载该链接对应的页面,并把该URL链接置入已爬行队列crawled_queue;depth自增1;第三步,从该页面中提取第i条URL链接以及其所在的标签的数据;首先判断其是否存在于crawled_queue,若存在于crawled_queue则摒弃该URL链接,反之则对该URL链接的标签数据与dictionary中的关键词比较,进行基于链接标签数据的判别,将主题相关的URL链接置入topic_queue和crawled_queue;反之,则先判断depth是否小于6,如果小于6则将该URL链接置入second_topic_queue,反之摒弃;第四步,i自增1,循环执行第三步,直到判别完该页面中的最后一条URL链接;第五步,循环执行从第二步到第四步的操作,直到url_queue队列为空;第六步,second_topic_queue队列出队,取出链接,并加载该链接对应的页面,并把该URL链接置入已爬行队列crawled_queue;将i赋值为1,depth自增1;第七步,i自增1,循环执行第三步,直到判别完该页面中的最后一条URL链接;对该页面中的链接标签进行判别;随后,提取当前页面的元数据,即&lt;meta&gt;标签中的&lt;title&gt;和&lt;content&gt;的数据,将其与dictionary中的关键词比较,进行基于元数据的判别;如果判别主题相关,则将将该页面的URL链接置入topic_queue;反之提取页面正文内容并通过基于dictionary的中文分词算法将正文中的主题特征项提取出来,接着结合dictionary中的主题特征词建立如下表达式:d={t1,w1;t2,w2;…tn,wn},最后,通过公式1计算出主题相关度值并与5作比较;若Sim不小于5,则认定该页面主题相关,将其URL链接置入topic_queue,反之摒弃;第八步,循环执行第六步到第七步,直到second_topic_queue队列为空;2)、页面主题相关度计算第一步,将网页数据库中的文档集合用D={d<sub>1</sub>,d<sub>2</sub>,…d<sub>i</sub>,…d<sub>m</sub>}来表示;第二步,计算出特征项t<sub>k</sub>在文档d<sub>i</sub>中出现的次数,即词频,记作TF<sub>ik</sub>;第三步,计算出文档集合D中出现特征项t<sub>k</sub>的文档数量,记作DF<sub>k</sub>;第四步,使用前文提供的公式w<sub>ik</sub>=TF<sub>ik</sub>/DF<sub>k</sub>计算出,w<sub>ik</sub>表示的是特征项t<sub>k</sub>在文档d<sub>i</sub>中的权重;主题特征向量的计算方法是,首先选取网页数据库中的文档集合D={d<sub>1</sub>,d<sub>2</sub>,…d<sub>i</sub>,…d<sub>m</sub>},并将主题词库中的主题关键词作为特征项,构建成一个m维的向量空间,根据前文提到的TF‑IDF算法计算出每个特征项在各个文档中的权重,最后取算术平均值,形成一组特征项权重,以此作为主题特征向量;结合上文提到的每个特征项权重的计算方法和主题特征向量计算方法,使用公式<img file="FDA0000899130330000021.GIF" wi="587" he="75" />计算出每一个网页与主题的相关度的值;其中w<sub>ik</sub>表示的是特征项tk在文档d<sub>i</sub>中的权重,w<sub>tk</sub>表示的是特征项tk在文档d<sub>t</sub>中的权重。
地址 100124 北京市朝阳区平乐园100号