基于文本结构分析的Web文档摘要的生成方法,申请号CN201410090200.0-传众专利搜索

发明名称	基于文本结构分析的Web文档摘要的生成方法
摘要	本发明公开了一种基于文本结构分析的Web文档摘要的生成方法，该方法以一个URL作为输入，综合视觉特征和文本特征的网页正文提取，将正文分割成若干个语义段，再对各语义段进行摘要的方式，使得生成的摘要拥有较高的覆盖率。本发明针对Web页面结构复杂，难以识别正文，且中文自动摘要还处于探索阶段的情况下，实现了对Web网页生成质量较好的文本摘要。
申请公布号	CN103853834B	申请公布日期	2017.02.08
申请号	CN201410090200.0	申请日期	2014.03.12
申请人	华东师范大学	发明人	沈怡涛;顾君忠;林晨
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	上海蓝迪专利商标事务所(普通合伙) 31215	代理人	徐筱梅;张翔
主权项	一种基于文本结构分析的Web文档摘要的生成方法，其特征在于：该方法包括以下步骤：1)输入待摘要网页的URL；2)从待摘要网页基于视觉分析提取网页正文，具体包括；2.1)采用浏览器核心对Web文档进行解析和渲染；2.2)采用视觉树算法对网页进行分块，得到各区块的位置、面积；2.3)对各区块进行分词；2.4)对各区块分析文本特征；2.5)对各区块是否包含正文进行打分，使用以下公式计算打分的分值：<maths num="0001"><math><![CDATA[<mrow><mi>V</mi><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msup><mi>S</mi><mn>2</mn></msup><mo>*</mo><mi>P</mi><mrow><mo>(</mo><msub><mi>x</mi><mn>1</mn></msub><mo>,</mo><msub><mi>y</mi><mn>1</mn></msub><mo>,</mo><msub><mi>x</mi><mn>2</mn></msub><mo>,</mo><msub><mi>y</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>N</mi><mo>+</mo><mn>1</mn></mrow></mfrac></mrow>]]></math><img file="FDA0001150293930000011.GIF" wi="570" he="122" /></maths>其中S表示陈述句数量，N表示非陈述句数量，P是根据区块大小和位置计算得到的一个值,x<sub>1</sub>，y<sub>1</sub>表示区块左上角的坐标，x<sub>2</sub>，y<sub>2</sub>表示区块右下角的坐标；2.6)将得分高于某一阈值的文本按顺序连接起来；2.7)输出Web文档正文；3)对提取的正文进行基于文本结构分析的自动摘要，具体包括：3.1)由步骤2)得到网页正文；3.2)对正文进行分词和词性标注；3.3)进行文本预处理：识别正文中的基本结构，即识别文章标题，完成句子、段落切分；3.4)对正文进行语义段切分，通过文本结构分析识别语义发生转换的位置，作为语义段切分的标志；3.5)对每个语义段，利用TFIDF的推广方法，对每个句子在所在语义段中的重要性进行度量，然后根据文摘字数要求，提取出若干句最能代表该语义段主题的句子；3.6)将各句子按顺序连接起来，输出文摘。
地址	200241 上海市闵行区东川路500号