发明名称 一种提取Web页面中用户所需Web信息的方法
摘要 本发明公开了一种提取Web页面中用户所需Web信息的方法,包括:按照Web页面对应的HTML文本顺序,选取若干个HTML标签作为标签尺元素生成标签尺,存储到系统中;系统按照所述标签尺中的HTML标签按序匹配所述HTML文本,根据匹配出的HTML标签分割Web信息,并存储分割后的Web信息块和包含该信息块的HTML标签在文本中的位置信息;用户根据所需Web信息确定包含该Web信息的HTML标签在HTML文本中的位置,并通知系统;系统查找并提取存储的分割后的对应Web信息块。采用本发明能灵活高效地获取Web页面中用户所需Web信息。
申请公布号 CN101094194B 申请公布日期 2010.06.23
申请号 CN200610086427.3 申请日期 2006.06.19
申请人 腾讯科技(深圳)有限公司 发明人 程凯
分类号 H04L12/58(2006.01)I;G06F17/30(2006.01)I;G06F17/00(2006.01)I 主分类号 H04L12/58(2006.01)I
代理机构 北京德琦知识产权代理有限公司 11018 代理人 谢安昆;宋志强
主权项 一种提取Web页面中用户所需Web信息的方法,其特征在于包括:A、按照Web页面对应的HTML文本顺序,选取若干个HTML标签作为标签尺元素生成标签尺,存储到系统中;B、系统按照所述标签尺中的HTML标签按序匹配所述HTML文本,根据匹配出的HTML标签分割Web信息,并存储分割后的Web信息块和包含该信息块的HTML标签在文本中的位置信息;C、用户根据所需Web信息确定包含该Web信息的HTML标签在HTML文本中的位置,并通知系统;系统查找并提取存储的分割后的对应Web信息块。
地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东410室