发明名称 关键词的确定方法及系统、权值向量的学方法及系统
摘要 本发明公开了一种关键词的确定方法及系统,以及权值向量的学方法及系统,可以应用于大规模数据应用的关键词提取。该关键词确定方法,首先根据一目标领域及一通用领域对一权值向量进行学,该目标领域内的一文字资料设置特征向量,并根据所学的该目标领域权值向量,确定该文字资料的关键词。本发明的技术方案,在不损失性能的前提下,提高了处理效率,满足像互联网等海量文本分析的应用。
申请公布号 CN101504667A 申请公布日期 2009.08.12
申请号 CN200910080611.0 申请日期 2009.03.20
申请人 北京学之途网络科技有限公司 发明人 刘文硕
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京安信方达知识产权代理有限公司 代理人 龙 洪;霍育栋
主权项 1、一种关键词的确定方法,其特征在于,包括:确定一目标领域;通过整理所述目标领域中的若干文本资料,获得一目标语料库,所述目标语料库为所述目标领域内的候选关键词的集合;通过整理多个领域中的若干文本资料,获得一通用语料库;结合所述通用语料库,为所述目标语料库中每个候选关键词设置并计算特征向量;设置一与所述特征向量同维的权值向量;利用所述目标语料库及特征向量,对所述权值向量进行学习;对所述目标领域中一欲要确定关键词的目标文本进行停用词过滤,获得的实意词为所述目标文本的候选关键词;及获得所述目标文本各候选关键词的特征向量,结合学习后的权值向量,确定所述目标文本的关键词。
地址 102218北京市朝阳区塞纳维拉水景花园40号楼4007室