发明名称 |
获取相关数字资源的方法及使用其生成专题的方法及装置 |
摘要 |
本发明提供一种获取相关数字资源的方法及使用其生成专题的方法及装置,获取相关数字资源的方法为:先提取第一数字资源的主题词,然后获取第二数字资源的关键词及其权重,获取所述第一数字资源与所述第二数字资源的文本相似度及语义分布密度,当所述文本相似度和语义分布密度均大于相应的阈值时,将第二数字资源作为第一数字资源的相关数字资源。该方案通过两篇数字资源的文本相似度和语义分布密度两个方面,来衡量两篇数字资源是否相关,文本相似度表示出了这两篇文本描述同一主题的程度,语义分布密度表示第一数字资源主题词在第二数字资源中分布的均衡程度,通过这两个值可以量化的表示出数字资源间的相关程度,从而获得准确的相关的数字资源。 |
申请公布号 |
CN105354182A |
申请公布日期 |
2016.02.24 |
申请号 |
CN201510627887.1 |
申请日期 |
2015.09.28 |
申请人 |
北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学 |
发明人 |
许茜;叶茂;任彩红;徐剑波;汤帜 |
分类号 |
G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京三聚阳光知识产权代理有限公司 11250 |
代理人 |
马永芬 |
主权项 |
一种获取相关数字资源的方法,其特征在于,包括如下步骤:提取第一数字资源的主题词;获取第二数字资源的关键词及其权重;获取所述第一数字资源与所述第二数字资源的文本相似度;获取所述主题词在所述第二数字资源中的语义分布密度;判断所述文本相似度是否大于文本相似度阈值且语义分布密度是否大于语义分布密度阈值时,若均为是则将第二数字资源作为第一数字资源的相关数字资源。 |
地址 |
100871 北京市海淀区成府路298号方正大厦9层 |