发明名称 |
带权重的文章标识方法和装置 |
摘要 |
本发明提供一种带权重的文章标识方法和装置,方法包括:对文章对应的标题进行分词得到多个词;计算多个词的权重值;多个词的权重值反应多个词在文章中的重要程度;根据多个词的权重值,扩展文章对应的标题中多个词中至少一个词的数量,使多个词的数量与多个词的权重值相对应;以扩展后的标题对文章进行标识。根据本发明,根据文章标题中各个词的重要程度为各个词计算了权重值,并根据权重值大小对文章标题中相应的词进行了扩展,扩展后的标题中权重值较大的词占比增大,这相当于扩展后的标题也能体现文章多个词的重要程度,所以在需要根据文章多个词的重要程度分析问题时,可以使用扩展后的标题替代文章进行使用。 |
申请公布号 |
CN105589847A |
申请公布日期 |
2016.05.18 |
申请号 |
CN201510976010.3 |
申请日期 |
2015.12.22 |
申请人 |
北京奇虎科技有限公司;奇智软件(北京)有限公司 |
发明人 |
张伸正;魏少俊;陈培军 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京鼎佳达知识产权代理事务所(普通合伙) 11348 |
代理人 |
王伟锋;刘铁生 |
主权项 |
一种带权重的文章标识方法,其特征在于,包括:对文章对应的标题进行分词得到多个词;计算所述多个词的权重值;所述多个词的权重值反应所述多个词在所述文章中的重要程度;根据所述多个词的权重值,扩展所述文章对应的标题中所述多个词中至少一个词的数量,使所述多个词的数量与所述多个词的权重值相对应;以扩展后的标题对所述文章进行标识。 |
地址 |
100088 北京市西城区新街口外大街28号D座112室(德胜园区) |