发明名称 |
网页内容的处理方法和装置 |
摘要 |
本发明实施例公开了一种网页内容的处理方法和装置。所述方法包括:读取与待处理网页对应的HTML结构正文数据;以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表;根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对。本发明实施例的技术方案在识别出网页正文各段落中包括的标题以及段落正文,并将其整理归纳到一起生成标题文本对后,可以实现使用识别出的标题文本对中的标题来进一步描述网页内容,扩充网页内容的描述信息的技术效果,极大的简化了网页的分析过程,优化了现有的网页内容的处理技术,满足了人们日益增长的个性化、便捷化的网页内容的处理需求。 |
申请公布号 |
CN106446072A |
申请公布日期 |
2017.02.22 |
申请号 |
CN201610807127.3 |
申请日期 |
2016.09.07 |
申请人 |
百度在线网络技术(北京)有限公司 |
发明人 |
邵睿;徐国强;尹存祥;骆彬;钟辉强;沈剑平 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京品源专利代理有限公司 11332 |
代理人 |
孟金喆;胡彬 |
主权项 |
一种网页内容的处理方法,其特征在于,包括:读取与待处理网页对应的超文本标记语言HTML结构正文数据;以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表;根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦三层 |