发明名称 |
章节内容分层方法和装置、文章内容分层方法和装置 |
摘要 |
本发明提供一种章节内容分层方法和装置以及文章内容分层方法和装置。本发明在充分考虑文章本身的结构信息(如文档中存在的各级标题蕴含的信息)的基础上,利用选定词在文章中的出现频率,形成分层结构,将文章的内容分层。这样,能够有效地反映文章内容的结构层级关系。本发明还通过对不同章节、不同文章的内容进行结构处理,能够对跨文档内容进行有效的合并,从而实现跨文档间信息的有效管理,以便用户能够快速地获取所需的信息。 |
申请公布号 |
CN103034656A |
申请公布日期 |
2013.04.10 |
申请号 |
CN201110303684.9 |
申请日期 |
2011.09.29 |
申请人 |
日立(中国)研究开发有限公司 |
发明人 |
刘宏建;周泉;邓攀;小林义行 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京尚诚知识产权代理有限公司 11322 |
代理人 |
龙淳 |
主权项 |
一种章节内容分层方法,其特征在于,包括:抽取所述章节所包含的标题中的多个词汇的第1抽取步骤;将所抽取的标题中的所述词汇选定为核心词的选定步骤;利用规定了词汇隶属关系的隶属关系表,对所选定的核心词进行分层处理,将属于上位的核心词作为第1阶层核心词而属于下位的核心词作为第2阶层核心词形成第1区域分层结构的第1区域设置步骤;对已分层核心词以外的核心词进行分层处理,基于所述核心词在所述章节中的出现频率,利用规定了词汇并列关系的并列关系表,将出现频率高的核心词作为第1阶层核心词而出现频率低的核心词作为第2阶层核心词形成第2区域分层结构的第2区域设置步骤;抽取所述标题以外的语句中的多个词汇的第2抽取步骤;将所抽取的多个词汇选定为选定词,基于所述选定词在文章中的出现频率进行排列的第1排列步骤;和按照出现频率高低的顺序,根据关联词表找出与所述第1区域分层结构和所述第2区域分层结构中的第2阶层核心词最相关联的选定词并将其确定为关联词,将包含该关联词的语句作为第3阶层置于与其有关联关系的所述第2阶层核心词之下,形成子树归并图的第1分层步骤。 |
地址 |
100190 北京市海淀区科学院南路2号融科资讯中心C座北栋301 |