发明名称 一种基于快速傅里叶变换的网页正文提取方法
摘要 本发明公开了一种基于快速傅立叶变换的网页正文提取方法,包括:读入HTML文件,并将该文件转换为Unicode格式,并存入一个字符数组;对字符数组进行窗口分段;对字符在文档中的位置进行统计学分析,根据结果对字符进行强度编码转换,得到正文强度值,每一个窗口字符段对应一个强度值序列;对强度值序列进行快速傅立叶变换,得到频域的F向量;计算任意两个窗口字符段之间的距离;为窗口字符段设定区间,所述区间是若干个连续的窗口的组合,用数字对(b,e)表示,根据任意两个窗口字符段之间的距离,计算每个区间的权值;对所有区间的权值排序,根据权值选择最佳正文区间。本发明对网页正文提取的准确率高,能有效地区分正文和网页的其他部分。
申请公布号 CN101237465A 申请公布日期 2008.08.06
申请号 CN200710063182.7 申请日期 2007.01.30
申请人 中国科学院声学研究所 发明人 王劲林;李蕾;李晔;白鹤;胡晶晶
分类号 H04L29/08(2006.01);H04L27/26(2006.01);G06F17/30(2006.01) 主分类号 H04L29/08(2006.01)
代理机构 北京泛华伟业知识产权代理有限公司 代理人 高存秀
主权项 1. 一种基于快速傅立叶变换的网页正文提取方法,具体包含以下步骤:步骤10)、读入HTML文件,并将该文件转换为Unicode格式,并存入一个字符数组中;步骤20)、对步骤10)得到的字符数组进行窗口分段,分段后的窗口字符段包含固定长度的字符;步骤30)、对字符在文档中的位置进行统计学分析,根据统计分析的结果对字符进行强度编码转换,得到该字符的正文强度值,每一个窗口字符段对应一个强度值序列;步骤40)、对步骤30)中得到的每一个窗口字符段的强度值序列进行快速傅立叶变换,得到频域的F向量;步骤50)、根据快速傅立叶变换的结果计算任意两个窗口字符段之间的距离;步骤60)、为窗口字符段设定区间,所述区间是若干个连续的窗口的组合,用数字对(b,e)表示,根据步骤50)中得到的任意两个窗口字符段之间的距离,计算每个区间的权值;步骤70)、对步骤60)中计算所得到的所有区间的权值排序,根据权值选择最佳正文区间。
地址 100080北京市海淀区北四环西路21号