发明名称 信息提取方法和装置
摘要 本申请公开了信息提取方法和装置。所述方法的一具体实施方式包括:将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。该实施方式实现了信息自动、精确的提取。
申请公布号 CN105677764A 申请公布日期 2016.06.15
申请号 CN201511022937.X 申请日期 2015.12.30
申请人 百度在线网络技术(北京)有限公司 发明人 秦首科;韩友;陈志扬;马飞超;徐培治
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京英赛嘉华知识产权代理有限责任公司 11204 代理人 王达佐;马晓亚
主权项 一种信息提取方法,其特征在于,所述方法包括:将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
地址 100085 北京市海淀区上地十街10号百度大厦三层