发明名称 |
一种提取页面主题的方法和装置 |
摘要 |
本发明提供了一种提取页面主题的方法和装置,其中方法包括:A、获取页面中表达页面主题的候选段落;B、如果存在可再分段的候选段落,则对可再分段的候选段落进行分段处理;否则执行步骤C;C、分别计算步骤B之后得到的各段落的置信度;D、将置信度满足预设的置信度要求的段落作为页面主题段落。通过本发明能够更加准确地确定页面主题段落,减小提取的页面主题与实际页面主题的偏差。 |
申请公布号 |
CN102737017A |
申请公布日期 |
2012.10.17 |
申请号 |
CN201110080852.2 |
申请日期 |
2011.03.31 |
申请人 |
北京百度网讯科技有限公司 |
发明人 |
刘海浪 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳市威世博知识产权代理事务所(普通合伙) 44280 |
代理人 |
何青瓦;李庆波 |
主权项 |
一种提取页面主题的方法,其特征在于,该方法包括:A、获取页面中表达页面主题的候选段落;B、如果存在可再分段的候选段落,则对可再分段的候选段落进行分段处理;否则执行步骤C;C、分别计算步骤B之后得到的各段落的置信度;D、将置信度满足预设的置信度要求的段落作为页面主题段落。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦2层 |