发明名称 一种违禁品别名在线自动获取方法及系统
摘要 本发明涉及信息抽取技术领域,尤其涉及一种违禁品别名在线自动获取方法及系统。本发明包括语料创建步骤,利用搜索引擎创建语料,该语料含有指定违禁品的多种别名;违禁品别名抽取步骤,从创建的语料中抽取出别名,并利用Google距离对每个抽取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度。本发明只要人为提供同一个违禁品的两个名称,就可以利用互联网自动获得该违禁品的各种别名,获取的别名召回率高,节约了大量的时间和人力。
申请公布号 CN101847242A 申请公布日期 2010.09.29
申请号 CN201010188991.2 申请日期 2010.05.27
申请人 武汉大学 发明人 刘娟;何涛;李凯
分类号 G06Q30/00(2006.01)I;G06F17/30(2006.01)I 主分类号 G06Q30/00(2006.01)I
代理机构 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人 张火春
主权项 一种违禁品别名在线自动获取方法,其特征在于,包括以下步骤:语料创建步骤,利用搜索引擎创建语料,该语料含有指定违禁品的多种别名,该步骤进一步包括以下子步骤:①人为提供违禁品名称p1和p2,将“p1”、“p2”分别提交给百度搜索,分别抓取前100条返回结果的网页标题,同时将“p1”“p2”一起提交给百度,抓取前100条返回结果的网页标题及标题下方百度提供的网页内容摘要,将以上所有的抓取内容一起构成为集合Z;②对集合Z使用下述正则表达式:″[//,、-/|,/-/s](([/u4e00-/u9fa5]{2,5}[//,、-/|,/-/s]){2,})″抽取其中所含的特殊格式,然后再次使用下述正则表达式:″[/u4e00-/u9fa5]{2,5}[//,、-/|,/-/s]″从上一步的结果中抽取候选的违禁品别名,将抽取的候选违禁物品别名放在一起构成集合S;③对S中的每一个元素q分别计算q和p1,p2的Google距离,选取两个距离中较小的一个做为q的分值,其中Google距离计算公式如下: <mrow> <mi>GoogleDis</mi> <mi>tan</mi> <mi>ce</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <mi>log</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>log</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mo>-</mo> <mi>log</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>log</mi> <mi>N</mi> <mo>-</mo> <mi>min</mi> <mrow> <mo>(</mo> <mi>log</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>log</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>其中f(x)为利用Baidu搜索x所找到的网页篇数,f(y)为利用Baidu搜索y所找到的网页篇数,f(x,y)为利用Baidu搜索x和y所找到的网页篇数,N为Baidu索引的页面篇数,在我们这里近似的取N等于10的10次方;④从S中选出具有代表性并且和(p1,p2)的相关程度比较高的别名作为种子集合E;⑤将E中的元素两两组合后分别提交给百度,抓取每次返回结果的前200条标题,将这些标题放在一起构成语料C;违禁品别名抽取步骤,从创建的语料中抽取出别名,并利用Google距离对每个抽取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度,该步骤进一步包括以下子步骤:①使用语料创建步骤中使用的正则表达式从C中抽取出候选别名,构成集合K,从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建步骤中种子集合E的交集组成集合R,作为(p1,p2)的概念代表;②使用向量法将集合K中的一部分非违禁品别名过滤掉,过滤后的集合记为T;③计算T中每一个元素和R中所有元素的Google平均距离,将该值作为该元素的分值,公式如下: <mrow> <mi>score</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munder> <mi>&Sigma;</mi> <mrow> <mi>r</mi> <mo>&Element;</mo> <mi>R</mi> </mrow> </munder> <mi>GoogleDis</mi> <mi>tan</mi> <mi>ce</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>r</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <mi>R</mi> <mo>|</mo> </mrow> </mfrac> </mrow>分值越低代表该别名和(p1,p2)所表示的违禁品相关程度越高,分值越高则相关程度越低,将T中的元素按照分值排序后输出。
地址 430072 湖北省武汉市武昌珞珈山