发明名称 |
一种基于文法模板的实体抽取方法 |
摘要 |
本发明涉及一种基于文法模板的实体抽取方法。所述方法包括:定义带上下文的文法模板,使得所述文法模板之间能够相互引用并且支持正则表达式、普通字符、及其组合;将所述文法模板中定义的每个文法转为文法树,针对所述文法树的结点的多个分支结点中的每一个进行匹配,找出其中消耗字符最多的一个分支结点作为最佳匹配;并且根据文法模板的匹配结果进行类别过滤,以抽取所需的实体。 |
申请公布号 |
CN106326206A |
申请公布日期 |
2017.01.11 |
申请号 |
CN201510353435.9 |
申请日期 |
2015.06.24 |
申请人 |
北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
发明人 |
唐培忠 |
分类号 |
G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
中原信达知识产权代理有限责任公司 11219 |
代理人 |
戚传江;陆锦华 |
主权项 |
一种基于文法模板的实体抽取方法,包括以下步骤:定义带上下文的文法模板,使得所述文法模板之间能够相互引用并且支持正则表达式、普通字符、及其组合;将所述文法模板中定义的每个文法转为文法树,针对所述文法树的结点的多个分支结点中的每一个进行匹配,找出其中消耗字符最多的一个分支结点作为最佳匹配;并且根据文法模板的匹配结果进行类别过滤,以抽取所需的实体。 |
地址 |
100080 北京市海淀区杏石口路65号西杉创意园四区11C楼东段1-4层西段1-4层 |