发明名称 |
一种网页标题的提取方法、装置及信息处理系统 |
摘要 |
本发明适用于信息处理领域,提供了一种网页标题的提取方法、装置及信息处理系统,所述方法包括下述步骤:提取网页源文件中标题标签和辅助性标签中的文字;提取所述网页源文件中每个文本块的特征点;根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,计算所述网页源文件中每个文本块作为网页标题的概率值;将概率值最大的文本块提取为网页标题。本发明能够有效的过滤掉网页设计者在标题标签或者辅助性标签中堆砌的与网页内容无关的文字,将最能描述网页主题内容或者中心思想的文字作为网页标题提取出来,提高网页搜索的准确率和召回率。 |
申请公布号 |
CN102768663A |
申请公布日期 |
2012.11.07 |
申请号 |
CN201110115312.3 |
申请日期 |
2011.05.05 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
杨巍;张立明 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳中一专利商标事务所 44237 |
代理人 |
张全文 |
主权项 |
一种网页标题的提取方法,其特征在于,所述方法包括以下步骤:提取网页源文件中标题标签和辅助性标签中的文字;提取所述网页源文件中每个文本块的特征点;根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,计算所述网页源文件中每个文本块作为网页标题的概率值;将概率值最大的文本块提取为网页标题。 |
地址 |
518044 广东省深圳市福田区振兴路赛格科技园2栋东403室 |