发明名称 使超文字标示语言网页转换成纯文字的方法及其系统
摘要 本发明是有关一种使超文字标示语言网页转换成纯文字的方法及其系统。该方法是先取得一超文字标示语言网页的超文字标示语言原始码,并执行一前置标签程序以撷取出一超文字标示语言原始码中的一部分,该超文字标示语言原始码中的一部分内具有多数个字串及多数个位于前述字串间的标签,再依据该超文字标示语言原始码中的一部分进行以下步骤:计算该超文字标示语言原始码中的一部分内各字串的长度与位置,找出其中长度为前第一预设值百分比的字串,前述前第一预设值百分比的字串的数量,等于超文字标示语言原始码中的一部分内所有字串数量与该第一预设值百分比的乘积,进而分析前第一预设值百分比字串中各字串与其余字串间的位置间隔,并对于与该前第一预设值百分比的各字串位置间隔不大于一第二预设值的字串,标示为一同一个区块,以找出一最大区块,最后删除最大区块内字串间的标签以取得一纯文字的主要内容。本发明借由对超文字标示语言网页的超文字标示语言原始码中的标签处理及以字串长度与两字串间的位置间隔来判断主要内容位置,可达到精确取得纯文字主要内容功效。
申请公布号 CN101246481B 申请公布日期 2011.04.20
申请号 CN200710080293.9 申请日期 2007.02.16
申请人 易搜比控股公司 发明人 黄子癸;蔡弘扬
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京中原华和知识产权代理有限责任公司 11019 代理人 寿宁;张华辉
主权项 一种使超文字标示语言网页转换成纯文字的方法,其是先接收一超文字标示语言网页的超文字标示语言原始码,并执行一前置标签程序以撷取出一超文字标示语言原始码中的一部分,该超文字标示语言原始码中的一部分内具有多数个字串及多数个位于前述字串间的标签,再依据该超文字标示语言原始码中的一部分进行以下步骤,所述方法其特征在于:(A)、计算该超文字标示语言原始码中的一部分内各字串的长度与位置,找出前述多数个字串中长度为前第一预设值百分比的字串,前述前第一预设值百分比的字串的数量,等于超文字标示语言原始码中的一部分内所有字串数量与该第一预设值百分比的乘积;(B)、分析前述前第一预设值百分比的字串中各字串与其余字串间的一位置间隔,并对于与该前第一预设值百分比的各字串位置间隔不大于一第二预设值的字串,标示为一同一个区块,以找出一最大区块;以及(C)、删除前述最大区块内前述字串间的标签以取得一主要内容。
地址 英属开曼群岛大开曼省