主权项 |
一种基于文本结构分析的Web文档摘要的生成方法,其特征在于:该方法包括以下步骤:1)输入待摘要网页的URL;2)从待摘要网页基于视觉分析提取网页正文,具体包括;2.1)采用浏览器核心对Web文档进行解析和渲染;2.2)采用视觉树算法对网页进行分块,得到各区块的位置、面积;2.3)对各区块进行分词;2.4)对各区块分析文本特征;2.5)对各区块是否包含正文进行打分,使用以下公式计算打分的分值:<maths num="0001"><math><![CDATA[<mrow><mi>V</mi><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msup><mi>S</mi><mn>2</mn></msup><mo>*</mo><mi>P</mi><mrow><mo>(</mo><msub><mi>x</mi><mn>1</mn></msub><mo>,</mo><msub><mi>y</mi><mn>1</mn></msub><mo>,</mo><msub><mi>x</mi><mn>2</mn></msub><mo>,</mo><msub><mi>y</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>N</mi><mo>+</mo><mn>1</mn></mrow></mfrac></mrow>]]></math><img file="FDA0001150293930000011.GIF" wi="570" he="122" /></maths>其中S表示陈述句数量,N表示非陈述句数量,P是根据区块大小和位置计算得到的一个值,x<sub>1</sub>,y<sub>1</sub>表示区块左上角的坐标,x<sub>2</sub>,y<sub>2</sub>表示区块右下角的坐标;2.6)将得分高于某一阈值的文本按顺序连接起来;2.7)输出Web文档正文;3)对提取的正文进行基于文本结构分析的自动摘要,具体包括:3.1)由步骤2)得到网页正文;3.2)对正文进行分词和词性标注;3.3)进行文本预处理:识别正文中的基本结构,即识别文章标题,完成句子、段落切分;3.4)对正文进行语义段切分,通过文本结构分析识别语义发生转换的位置,作为语义段切分的标志;3.5)对每个语义段,利用TFIDF的推广方法,对每个句子在所在语义段中的重要性进行度量,然后根据文摘字数要求,提取出若干句最能代表该语义段主题的句子;3.6)将各句子按顺序连接起来,输出文摘。 |