发明名称 |
一种基于非结构化文本生成结构化信息实体的方法与设备 |
摘要 |
本发明的目的是提供一种基于非结构化文本生成结构化信息实体的方法与设备。其中,信息实体生成设备获取与中心词相关的非结构化文本;基于预定分类模型,对所述非结构化文本进行分类分析,以获取所述中心词的分类;根据所述分类,生成所述中心词的结构化信息实体。与现有技术相比,本发明根据中心词的非结构化文本,生成该中心词对应的结构化信息实体,由此便于对该中心词所包含的内容进行数据挖掘,并降低中心词内容维护的成本。 |
申请公布号 |
CN102214208A |
申请公布日期 |
2011.10.12 |
申请号 |
CN201110107222.X |
申请日期 |
2011.04.27 |
申请人 |
百度在线网络技术(北京)有限公司 |
发明人 |
王京津;夏寅;耿磊;王坤;陆海霞;曹建栋;严孙荣;肖琦;左莉;苏上海;李博;王丽宝;李永强;张伟 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京汉昊知识产权代理事务所(普通合伙) 11370 |
代理人 |
罗朋 |
主权项 |
一种计算机实现的基于非结构化文本生成结构化信息实体的方法,其中,该方法包括以下步骤:a获取与中心词相关的非结构化文本;b基于预定分类模型,对所述非结构化文本进行分类分析,以获取所述中心词的分类;c根据所述分类,生成所述中心词的结构化信息实体。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦 |