发明名称 基于文本结构分析的Web文档摘要的生成方法
摘要 本发明公开了一种基于文本结构分析的Web文档摘要的生成方法,该方法以一个URL作为输入,综合视觉特征和文本特征的网页正文提取,将正文分割成若干个语义段,再对各语义段进行摘要的方式,使得生成的摘要拥有较高的覆盖率。本发明针对Web页面结构复杂,难以识别正文,且中文自动摘要还处于探索阶段的情况下,实现了对Web网页生成质量较好的文本摘要。
申请公布号 CN103853834B 申请公布日期 2017.02.08
申请号 CN201410090200.0 申请日期 2014.03.12
申请人 华东师范大学 发明人 沈怡涛;顾君忠;林晨
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海蓝迪专利商标事务所(普通合伙) 31215 代理人 徐筱梅;张翔
主权项 一种基于文本结构分析的Web文档摘要的生成方法,其特征在于:该方法包括以下步骤:1)输入待摘要网页的URL;2)从待摘要网页基于视觉分析提取网页正文,具体包括;2.1)采用浏览器核心对Web文档进行解析和渲染;2.2)采用视觉树算法对网页进行分块,得到各区块的位置、面积;2.3)对各区块进行分词;2.4)对各区块分析文本特征;2.5)对各区块是否包含正文进行打分,使用以下公式计算打分的分值:<maths num="0001"><math><![CDATA[<mrow><mi>V</mi><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msup><mi>S</mi><mn>2</mn></msup><mo>*</mo><mi>P</mi><mrow><mo>(</mo><msub><mi>x</mi><mn>1</mn></msub><mo>,</mo><msub><mi>y</mi><mn>1</mn></msub><mo>,</mo><msub><mi>x</mi><mn>2</mn></msub><mo>,</mo><msub><mi>y</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>N</mi><mo>+</mo><mn>1</mn></mrow></mfrac></mrow>]]></math><img file="FDA0001150293930000011.GIF" wi="570" he="122" /></maths>其中S表示陈述句数量,N表示非陈述句数量,P是根据区块大小和位置计算得到的一个值,x<sub>1</sub>,y<sub>1</sub>表示区块左上角的坐标,x<sub>2</sub>,y<sub>2</sub>表示区块右下角的坐标;2.6)将得分高于某一阈值的文本按顺序连接起来;2.7)输出Web文档正文;3)对提取的正文进行基于文本结构分析的自动摘要,具体包括:3.1)由步骤2)得到网页正文;3.2)对正文进行分词和词性标注;3.3)进行文本预处理:识别正文中的基本结构,即识别文章标题,完成句子、段落切分;3.4)对正文进行语义段切分,通过文本结构分析识别语义发生转换的位置,作为语义段切分的标志;3.5)对每个语义段,利用TFIDF的推广方法,对每个句子在所在语义段中的重要性进行度量,然后根据文摘字数要求,提取出若干句最能代表该语义段主题的句子;3.6)将各句子按顺序连接起来,输出文摘。
地址 200241 上海市闵行区东川路500号