发明名称 |
一种基于快速傅里叶变换的网页正文提取方法 |
摘要 |
本发明公开了一种基于快速傅立叶变换的网页正文提取方法,包括:读入HTML文件,并将该文件转换为Unicode格式,并存入一个字符数组;对字符数组进行窗口分段;对字符在文档中的位置进行统计学分析,根据结果对字符进行强度编码转换,得到正文强度值,每一个窗口字符段对应一个强度值序列;对强度值序列进行快速傅立叶变换,得到频域的F向量;计算任意两个窗口字符段之间的距离;为窗口字符段设定区间,所述区间是若干个连续的窗口的组合,用数字对(b,e)表示,根据任意两个窗口字符段之间的距离,计算每个区间的权值;对所有区间的权值排序,根据权值选择最佳正文区间。本发明对网页正文提取的准确率高,能有效地区分正文和网页的其他部分。 |
申请公布号 |
CN101237465A |
申请公布日期 |
2008.08.06 |
申请号 |
CN200710063182.7 |
申请日期 |
2007.01.30 |
申请人 |
中国科学院声学研究所 |
发明人 |
王劲林;李蕾;李晔;白鹤;胡晶晶 |
分类号 |
H04L29/08(2006.01);H04L27/26(2006.01);G06F17/30(2006.01) |
主分类号 |
H04L29/08(2006.01) |
代理机构 |
北京泛华伟业知识产权代理有限公司 |
代理人 |
高存秀 |
主权项 |
1. 一种基于快速傅立叶变换的网页正文提取方法,具体包含以下步骤:步骤10)、读入HTML文件,并将该文件转换为Unicode格式,并存入一个字符数组中;步骤20)、对步骤10)得到的字符数组进行窗口分段,分段后的窗口字符段包含固定长度的字符;步骤30)、对字符在文档中的位置进行统计学分析,根据统计分析的结果对字符进行强度编码转换,得到该字符的正文强度值,每一个窗口字符段对应一个强度值序列;步骤40)、对步骤30)中得到的每一个窗口字符段的强度值序列进行快速傅立叶变换,得到频域的F向量;步骤50)、根据快速傅立叶变换的结果计算任意两个窗口字符段之间的距离;步骤60)、为窗口字符段设定区间,所述区间是若干个连续的窗口的组合,用数字对(b,e)表示,根据步骤50)中得到的任意两个窗口字符段之间的距离,计算每个区间的权值;步骤70)、对步骤60)中计算所得到的所有区间的权值排序,根据权值选择最佳正文区间。 |
地址 |
100080北京市海淀区北四环西路21号 |