一种违禁品别名在线自动获取方法及系统,申请号CN201010188991.2-传众专利搜索

发明名称	一种违禁品别名在线自动获取方法及系统
摘要	本发明涉及信息抽取技术领域，尤其涉及一种违禁品别名在线自动获取方法及系统。本发明包括语料创建步骤，利用搜索引擎创建语料，该语料含有指定违禁品的多种别名；违禁品别名抽取步骤，从创建的语料中抽取出别名，并利用Google距离对每个抽取的别名给予一定的分值，该分值表示此别名和指定违禁品之间的相关程度。本发明只要人为提供同一个违禁品的两个名称，就可以利用互联网自动获得该违禁品的各种别名，获取的别名召回率高，节约了大量的时间和人力。
申请公布号	CN101847242A	申请公布日期	2010.09.29
申请号	CN201010188991.2	申请日期	2010.05.27
申请人	武汉大学	发明人	刘娟;何涛;李凯
分类号	G06Q30/00(2006.01)I;G06F17/30(2006.01)I	主分类号	G06Q30/00(2006.01)I
代理机构	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人	张火春
主权项	一种违禁品别名在线自动获取方法，其特征在于，包括以下步骤：语料创建步骤，利用搜索引擎创建语料，该语料含有指定违禁品的多种别名，该步骤进一步包括以下子步骤：①人为提供违禁品名称p1和p2，将“p1”、“p2”分别提交给百度搜索，分别抓取前100条返回结果的网页标题，同时将“p1”“p2”一起提交给百度，抓取前100条返回结果的网页标题及标题下方百度提供的网页内容摘要，将以上所有的抓取内容一起构成为集合Z；②对集合Z使用下述正则表达式：″[//，、-/\|，/-/s](([/u4e00-/u9fa5]{2，5}[//，、-/\|，/-/s]){2，})″抽取其中所含的特殊格式，然后再次使用下述正则表达式：″[/u4e00-/u9fa5]{2，5}[//，、-/\|，/-/s]″从上一步的结果中抽取候选的违禁品别名，将抽取的候选违禁物品别名放在一起构成集合S；③对S中的每一个元素q分别计算q和p1，p2的Google距离，选取两个距离中较小的一个做为q的分值，其中Google距离计算公式如下： <mrow> <mi>GoogleDis</mi> <mi>tan</mi> <mi>ce</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <mi>log</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>log</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mo>-</mo> <mi>log</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>log</mi> <mi>N</mi> <mo>-</mo> <mi>min</mi> <mrow> <mo>(</mo> <mi>log</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>log</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>其中f(x)为利用Baidu搜索x所找到的网页篇数，f(y)为利用Baidu搜索y所找到的网页篇数，f(x，y)为利用Baidu搜索x和y所找到的网页篇数，N为Baidu索引的页面篇数，在我们这里近似的取N等于10的10次方；④从S中选出具有代表性并且和(p1，p2)的相关程度比较高的别名作为种子集合E；⑤将E中的元素两两组合后分别提交给百度，抓取每次返回结果的前200条标题，将这些标题放在一起构成语料C；违禁品别名抽取步骤，从创建的语料中抽取出别名，并利用Google距离对每个抽取的别名给予一定的分值，该分值表示此别名和指定违禁品之间的相关程度，该步骤进一步包括以下子步骤：①使用语料创建步骤中使用的正则表达式从C中抽取出候选别名，构成集合K，从K中选出最高频的10个候选违禁品别名组成集合F，取F和语料创建步骤中种子集合E的交集组成集合R，作为(p1，p2)的概念代表；②使用向量法将集合K中的一部分非违禁品别名过滤掉，过滤后的集合记为T；③计算T中每一个元素和R中所有元素的Google平均距离，将该值作为该元素的分值，公式如下： <mrow> <mi>score</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munder> <mi>Σ</mi> <mrow> <mi>r</mi> <mo>&Element;</mo> <mi>R</mi> </mrow> </munder> <mi>GoogleDis</mi> <mi>tan</mi> <mi>ce</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>r</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>\|</mo> <mi>R</mi> <mo>\|</mo> </mrow> </mfrac> </mrow>分值越低代表该别名和(p1，p2)所表示的违禁品相关程度越高，分值越高则相关程度越低，将T中的元素按照分值排序后输出。
地址	430072 湖北省武汉市武昌珞珈山