发明名称 一种基于搜索策略的多主题信息采集方法
摘要 本发明是一种基于搜索策略的多主题信息采集方法,其步骤如下:(1)将主题规则集<img file="2013106772576100004DEST_PATH_IMAGE002.GIF" wi="25" he="27" />拆分成原子规则集<img file="2013106772576100004DEST_PATH_IMAGE004.GIF" wi="24" he="16" />;(2)判定原子规则集<img file="2013106772576100004DEST_PATH_IMAGE006.GIF" wi="32" he="24" />中原子规则<img file="2013106772576100004DEST_PATH_IMAGE008.GIF" wi="48" he="23" />的关系;(3)将原子规则集<img file="694241DEST_PATH_IMAGE004.GIF" wi="24" he="16" />调度到内置搜索队列<img file="2013106772576100004DEST_PATH_IMAGE010.GIF" wi="23" he="24" />、通用搜索队列<img file="DEST_PATH_IMAGE012.GIF" wi="24" he="24" />;(4)用<img file="DEST_PATH_IMAGE014.GIF" wi="31" he="35" />和<img file="DEST_PATH_IMAGE016.GIF" wi="30" he="30" />中的原子规则进行搜索采集。本发明方法针对多主题信息采集效率低下的问题,提出将主题的规则拆分成原子规则,并利用原子规则间的相同、互换、包含三种关系达到减少在互联网上搜索采集次数的目的,提高了多主题信息采集的性能。
申请公布号 CN103617286A 申请公布日期 2014.03.05
申请号 CN201310677257.6 申请日期 2013.12.13
申请人 仲兆满 发明人 仲兆满;李存华;管燕
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 连云港润知专利代理事务所 32255 代理人 刘喜莲
主权项 1.一种基于搜索策略的多主题信息采集方法,其特征在于:其具体步骤如下:A、将主题规则集<img file="2013106772576100001DEST_PATH_IMAGE002.GIF" wi="24" he="27" />拆分成原子规则集<img file="2013106772576100001DEST_PATH_IMAGE004.GIF" wi="31" he="31" />;B、判定原子规则集<img file="754955DEST_PATH_IMAGE004.GIF" wi="31" he="31" />中原子规则<img file="2013106772576100001DEST_PATH_IMAGE006.GIF" wi="63" he="40" />的关系;C、将原子规则集<img file="2013106772576100001DEST_PATH_IMAGE008.GIF" wi="26" he="26" />分配到内置搜索队列<img file="2013106772576100001DEST_PATH_IMAGE010.GIF" wi="24" he="28" />、通用搜索队列<img file="2013106772576100001DEST_PATH_IMAGE012.GIF" wi="28" he="28" />;D、用<img file="DEST_PATH_IMAGE014.GIF" wi="31" he="35" />和<img file="DEST_PATH_IMAGE016.GIF" wi="30" he="30" />中的原子规则进行搜索采集;步骤A中所述的将主题规则集<img file="DEST_PATH_IMAGE018.GIF" wi="29" he="32" />拆分成原子规则集<img file="422828DEST_PATH_IMAGE008.GIF" wi="26" he="26" />,其具体步骤如下:A1、依次从<img file="DEST_PATH_IMAGE020.GIF" wi="26" he="29" />中取出每条主题规则<img file="DEST_PATH_IMAGE022.GIF" wi="31" he="38" />,<img file="DEST_PATH_IMAGE024.GIF" wi="32" he="32" />置空;A2、判段<img file="DEST_PATH_IMAGE026.GIF" wi="26" he="31" />中是否包含“+”关系;如果包含,则转步骤A3;否则,<img file="DEST_PATH_IMAGE028.GIF" wi="77" he="33" />,转步骤A5;A3、判断<img file="DEST_PATH_IMAGE030.GIF" wi="33" he="41" />中是否存在“与”分配律。
地址 222000 江苏省连云港市新浦区苍梧路59号淮海工学院计算机学院仲兆满转