发明名称 一种基于YAGO2s的专利文档查询扩展方法
摘要 本发明公开了一种基于YAGO2s的专利文档查询扩展方法,按以下步骤进行:第一步:从专利数据集中获取内容并分析得到专利文档概念术语;第二步:将专利文档进行分类;第三步:构建专利文档索引;第四步:基于改进TF-IDF方法构建专利文档领域概念词典;第五步:查询输入分析及构建;第六步:根据查询输入的国际专利分类对应的领域概念词典对初始查询进行查询扩展;第七步,将YAGO2s作为外部查询扩展源,进行语义概念查询扩展,产生初始查询的扩展概念;第八步:查询重构,组成最终查询。本发明结合专利文档的特点,对查询进行语义分析,对初始查询概念进行扩展,其能有效地理解用户的查询意图,提高了检索的性能。
申请公布号 CN104765779A 申请公布日期 2015.07.08
申请号 CN201510124279.9 申请日期 2015.03.20
申请人 浙江大学 发明人 林兰芬;朱晓伟;王锋;张文宇
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 浙江杭州金通专利事务所有限公司 33100 代理人 商旭东;徐关寿
主权项 一种基于YAGO2s的专利文档查询扩展方法,其特征是按以下步骤进行:第一步:从专利数据集中获取专利文档的内容并分析得到带有权重的专利文档概念术语;第二步:将专利文档按国际专利(I PC)分类号的“分组”部分进行分类;第三步:构建专利文档索引;第四步:基于改进TF‑I DF方法对第二步中处理得到的各个类别构建专利文档领域概念词典;第五步:查询输入分析及构建,得到初始查询的查询概念;第六步:根据查询输入的国际专利分类对应的领域概念词典对初始查询补充其“领域特性”,选取topM个领域词典中的概念进行查询扩展;第七步:将YAGO2s作为外部查询扩展源,选取topN个扩展概念进行语义概念查询扩展,产生初始查询的扩展概念;第八步:查询重构,将初始查询和扩展查询进行融合,组成最终查询;其中,第四步中改进TF‑IDF方法得到概念词汇t在领域中的重要度W<sub>t,d</sub>公式为<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>Wt</mi><mo>,</mo><mi>d</mi><mo>=</mo><mfrac><mrow><msub><mi>tf</mi><mrow><mi>t</mi><mo>,</mo><mi>d</mi></mrow></msub><mo>*</mo><mi>log</mi><mrow><mo>(</mo><mfrac><mi>N</mi><msub><mi>n</mi><mi>d</mi></msub></mfrac><mo>+</mo><mn>0.001</mn><mo>)</mo></mrow><mo>*</mo><msub><mi>E</mi><mi>t</mi></msub></mrow><msqrt><msub><mi>&Sigma;</mi><mrow><mi>t</mi><mo>&Element;</mo><mi>d</mi></mrow></msub><msup><mrow><mo>[</mo><msub><mi>tf</mi><mrow><mi>t</mi><mo>,</mo><mi>d</mi></mrow></msub><mo>*</mo><mi>log</mi><mrow><mo>(</mo><mfrac><mi>N</mi><msub><mi>n</mi><mi>d</mi></msub></mfrac><mo>+</mo><mn>0.001</mn><mo>)</mo></mrow><mo>*</mo><msub><mi>E</mi><mi>t</mi></msub><mo>]</mo></mrow><mn>2</mn></msup></msqrt></mfrac><mo>.</mo></mrow>]]></math><img file="FDA0000685496300000011.GIF" wi="1186" he="388" /></maths>
地址 310027 浙江省杭州市浙大路38号