发明名称 |
一种文本提取方法及装置 |
摘要 |
本发明涉及一种文本提取方法,所述方法包括:步骤一、预处理给定的网页的超文本传输协议html源码,以获取所述源码中的文本的字符串序列,所述字符串序列包含N个文本行;步骤二、提取所述字符串序列中每个文本行的特征元素,所述特征元素包含M个属性;步骤三、依据第一关联规则,确定所述字符串序列中的潜在正文行组成的潜在正文块,所示第一关联规则由所述特征元素中的所述M个属性确定。通过本发明实施例能够提高网页中文本块提取的准确度,提高搜索引擎的搜索效率和准确度。 |
申请公布号 |
CN103810251A |
申请公布日期 |
2014.05.21 |
申请号 |
CN201410026939.5 |
申请日期 |
2014.01.21 |
申请人 |
南京财经大学 |
发明人 |
卜湛;伍之昂;曹杰;李秀怡;刘英卓 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京亿腾知识产权代理事务所 11309 |
代理人 |
陈霁 |
主权项 |
一种文本提取方法,其特征在于,所述方法包括:步骤一、预处理给定的网页的超文本传输协议html源码,以获取所述源码中的文本的字符串序列,所述字符串序列包含N个文本行;步骤二、提取所述字符串序列中每个文本行的特征元素,所述特征元素包含M个属性;步骤三、依据第一关联规则,确定所述字符串序列中的潜在正文行组成的潜在正文块,所示第一关联规则由所述特征元素中的所述M个属性确定。 |
地址 |
210003 江苏省南京市铁路北街128号 |