发明名称 |
一种提取Web页面中用户所需Web信息的方法 |
摘要 |
本发明公开了一种提取Web页面中用户所需Web信息的方法,包括:按照Web页面对应的HTML文本顺序,选取若干个HTML标签作为标签尺元素生成标签尺,存储到系统中;系统按照所述标签尺中的HTML标签按序匹配所述HTML文本,根据匹配出的HTML标签分割Web信息,并存储分割后的Web信息块和包含该信息块的HTML标签在文本中的位置信息;用户根据所需Web信息确定包含该Web信息的HTML标签在HTML文本中的位置,并通知系统;系统查找并提取存储的分割后的对应Web信息块。采用本发明能灵活高效地获取Web页面中用户所需Web信息。 |
申请公布号 |
CN101094194B |
申请公布日期 |
2010.06.23 |
申请号 |
CN200610086427.3 |
申请日期 |
2006.06.19 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
程凯 |
分类号 |
H04L12/58(2006.01)I;G06F17/30(2006.01)I;G06F17/00(2006.01)I |
主分类号 |
H04L12/58(2006.01)I |
代理机构 |
北京德琦知识产权代理有限公司 11018 |
代理人 |
谢安昆;宋志强 |
主权项 |
一种提取Web页面中用户所需Web信息的方法,其特征在于包括:A、按照Web页面对应的HTML文本顺序,选取若干个HTML标签作为标签尺元素生成标签尺,存储到系统中;B、系统按照所述标签尺中的HTML标签按序匹配所述HTML文本,根据匹配出的HTML标签分割Web信息,并存储分割后的Web信息块和包含该信息块的HTML标签在文本中的位置信息;C、用户根据所需Web信息确定包含该Web信息的HTML标签在HTML文本中的位置,并通知系统;系统查找并提取存储的分割后的对应Web信息块。 |
地址 |
518044 广东省深圳市福田区振兴路赛格科技园2栋东410室 |