发明名称 |
互联网中关联词条组相关度的测量方法、排序方法和装置 |
摘要 |
互联网中关联词条组相关度的测量方法、排序方法和装置;测量方法包括:在互联网中找到包含待测量关联词条组的站点;分别测量所述待测量关联词条组在各所述站点中的相关度,按以下步骤测量所述待测量关联词条组在所述站点之一的站点i中的相关度:确定所述站点i中包含关联词条组的不重复的url数量urlcnt_i;确定所述站点i中包含所述待测量关联词条组的个数wordcnt_i;采用第一函数对所述wordcnt_i处理得到第一函数值,采用第二函数对urlcnt_i除以wordcnt_i的商urlcnt_i/wordcnt_i处理得到第二函数值;由第一函数值和第二函数值的乘积得到所述待测量关联词条组在该站点i中的相关度;将所述待测量关联词条组在各所述站点中的相关度相加,得到所述待测量关联词条组的相关度。 |
申请公布号 |
CN102117279B |
申请公布日期 |
2014.05.21 |
申请号 |
CN200910243191.3 |
申请日期 |
2009.12.31 |
申请人 |
北京金山办公软件有限公司 |
发明人 |
彭锦臻;张宇峰;于亮 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 11227 |
代理人 |
王学强 |
主权项 |
一种互联网中关联词条组相关度的测量方法,包括:A、在互联网中找到包含待测量关联词条组的站点;B、分别测量所述待测量关联词条组在各所述站点中的相关度,按以下步骤测量所述待测量关联词条组在所述站点之一的站点i中的相关度:确定所述站点i中包含关联词条组的不重复的url数量urlcnt_i;确定所述站点i中包含所述待测量关联词条组的个数wordcnt_i;采用第一函数对所述wordcnt_i处理得到第一函数值,采用第二函数对urlcnt_i除以wordcnt_i的商urlcnt_i/wordcnt_i处理得到第二函数值;由第一函数值和第二函数值的乘积得到所述待测量关联词条组在该站点i中的相关度;C、将所述待测量关联词条组在各所述站点中的相关度相加,得到所述待测量关联词条组的相关度;所述步骤B中,所述第一函数为一底数大于1的对数函数;所述第二函数为指数大于0小于1的幂函数。 |
地址 |
100080 北京市海淀区小营西路33号二层商业办公C区 |