发明名称 得到和搜索结构化语义知识的方法及对应装置
摘要 本发明提供了一种得到和搜索结构化语义知识的方法及对应装置,从已有语料中抽取出实体类型E的实体e<sub>i</sub>;从搜索日志中获取所有包含E的搜索项(query),从query中E之前出现的实词抽取候选需求限定词d<sub>m</sub>,构成候选需求限定词集合{d<sub>m</sub>};从大规模语料库中抽取出包含属于E的e<sub>i</sub>且包含{d<sub>m</sub>}中至少一个候选需求限定词的句子,从句子中选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词c<sub>j</sub>,确定所抽取句子中c<sub>j</sub>和e<sub>i</sub>构成的词语对&lt;c<sub>j</sub>,e<sub>i</sub>&gt;;将&lt;c<sub>j</sub>,e<sub>i</sub>&gt;存入实体类型E对应的结构化数据库。获取到用户输入的包含需求限定词c和实体类型E的query时,从所述EKBase中搜索所述c对应的所有实体e并包含在搜索结果中返回给用户。
申请公布号 CN103186556B 申请公布日期 2016.09.07
申请号 CN201110447926.1 申请日期 2011.12.28
申请人 北京百度网讯科技有限公司 发明人 赵世奇;方高林;王海峰
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人 袁媛
主权项 一种得到结构化语义知识的方法,其特征在于,该方法包括:S1、对已有语料进行分词处理和命名实体识别,抽取出实体类型E的实体e<sub>i</sub>;S2、从搜索日志中获取所有包含所述E的搜索项query,从query中所述E之前出现的实词抽取候选需求限定词d<sub>m</sub>,构成候选需求限定词集合{d<sub>m</sub>};S3、从大规模语料库中抽取出包含属于所述E的e<sub>i</sub>且包含所述{d<sub>m</sub>}中至少一个候选需求限定词的句子,从句子中选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词c<sub>j</sub>,确定所抽取句子中c<sub>j</sub>和e<sub>i</sub>构成的词语对&lt;c<sub>j</sub>,e<sub>i</sub>&gt;;S4、将&lt;c<sub>j</sub>,e<sub>i</sub>&gt;存入实体类型E对应的结构化数据库EKBase。
地址 100085 北京市海淀区上地十街10号百度大厦2层