发明名称 |
基于锚文本分析的领域术语自动生成方法 |
摘要 |
本发明提出一种基于锚文本分析的领域术语自动生成方法,包括以下步骤:采集用户的浏览日志;对所述浏览日志进行处理以获得用户点击的锚文本和对应的点击结果地址;根据所述点击结果地址对所述锚文本进行处理以获得候选多字集合;基于新词发现算法对所述候选多字集合中的多字进行筛选以去除不能独立成词的多字;和根据相对频率算法对所述新词发现算法筛选后的候选多字集合进行进一步筛选以输出领域术语生成结果。本发明能够自动从锚文本中发现和提取领域术语,并且模型结构和参数简单,算法复杂度低,在实验测试数据上取得了较好的性能和领域术语发现效果。 |
申请公布号 |
CN102169496A |
申请公布日期 |
2011.08.31 |
申请号 |
CN201110091312.4 |
申请日期 |
2011.04.12 |
申请人 |
清华大学;北京搜狗科技发展有限公司 |
发明人 |
闫兴龙;刘奕群;马少平;张敏;金奕江;张阔;茹立云 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京清亦华知识产权代理事务所(普通合伙) 11201 |
代理人 |
张大威 |
主权项 |
一种基于锚文本分析的领域术语自动生成方法,其特征在于,包括以下步骤:采集用户的浏览日志;对所述浏览日志进行处理以获得用户点击的锚文本和对应的点击结果地址;根据所述点击结果地址对所述锚文本进行处理以获得候选多字集合;基于新词发现算法对所述候选多字集合中的多字进行筛选以去除不能独立成词的多字;和根据相对频率算法对所述新词发现算法筛选后的候选多字集合进行进一步筛选以输出领域术语生成结果。 |
地址 |
100084 北京市海淀区100084-82信箱 |