发明名称 |
关键词的确定方法及系统、权值向量的学方法及系统 |
摘要 |
本发明公开了一种关键词的确定方法及系统,以及权值向量的学方法及系统,可以应用于大规模数据应用的关键词提取。该关键词确定方法,首先根据一目标领域及一通用领域对一权值向量进行学,该目标领域内的一文字资料设置特征向量,并根据所学的该目标领域权值向量,确定该文字资料的关键词。本发明的技术方案,在不损失性能的前提下,提高了处理效率,满足像互联网等海量文本分析的应用。 |
申请公布号 |
CN101504667A |
申请公布日期 |
2009.08.12 |
申请号 |
CN200910080611.0 |
申请日期 |
2009.03.20 |
申请人 |
北京学之途网络科技有限公司 |
发明人 |
刘文硕 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京安信方达知识产权代理有限公司 |
代理人 |
龙 洪;霍育栋 |
主权项 |
1、一种关键词的确定方法,其特征在于,包括:确定一目标领域;通过整理所述目标领域中的若干文本资料,获得一目标语料库,所述目标语料库为所述目标领域内的候选关键词的集合;通过整理多个领域中的若干文本资料,获得一通用语料库;结合所述通用语料库,为所述目标语料库中每个候选关键词设置并计算特征向量;设置一与所述特征向量同维的权值向量;利用所述目标语料库及特征向量,对所述权值向量进行学习;对所述目标领域中一欲要确定关键词的目标文本进行停用词过滤,获得的实意词为所述目标文本的候选关键词;及获得所述目标文本各候选关键词的特征向量,结合学习后的权值向量,确定所述目标文本的关键词。 |
地址 |
102218北京市朝阳区塞纳维拉水景花园40号楼4007室 |