发明名称 一种提取页面主题的方法和装置
摘要 本发明提供了一种提取页面主题的方法和装置,其中方法包括:A、获取页面中表达页面主题的候选段落;B、如果存在可再分段的候选段落,则对可再分段的候选段落进行分段处理;否则执行步骤C;C、分别计算步骤B之后得到的各段落的置信度;D、将置信度满足预设的置信度要求的段落作为页面主题段落。通过本发明能够更加准确地确定页面主题段落,减小提取的页面主题与实际页面主题的偏差。
申请公布号 CN102737017A 申请公布日期 2012.10.17
申请号 CN201110080852.2 申请日期 2011.03.31
申请人 北京百度网讯科技有限公司 发明人 刘海浪
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳市威世博知识产权代理事务所(普通合伙) 44280 代理人 何青瓦;李庆波
主权项 一种提取页面主题的方法,其特征在于,该方法包括:A、获取页面中表达页面主题的候选段落;B、如果存在可再分段的候选段落,则对可再分段的候选段落进行分段处理;否则执行步骤C;C、分别计算步骤B之后得到的各段落的置信度;D、将置信度满足预设的置信度要求的段落作为页面主题段落。
地址 100085 北京市海淀区上地十街10号百度大厦2层