发明名称 |
面向文本大数据的词语处理方法 |
摘要 |
本发明公开了一种面向文本大数据的词语处理方法,该方法包括:步骤1:从文本语料库中选择多个词语,针对该多个词语中的每一个词语构建一个K维特征向量,该特征向量的各维度初值由0-1区间内的均匀分布产生;步骤2:使用N元语法模型N-gram方法将文本表示为由一组特征向量组合成的N-gram模型;步骤3:利用神经网络模型,计算该N-gram模型的得分;步骤4:用一随机词替换该N-gram模型的中间位置词,并计算替换后模型的得分;步骤5:利用反向传播算法更新N-gram模型中的N维词向量,最终得到嵌入空间的词特征;步骤6:针对基于所述语料库所构造的每一组N-gram模型,重复步骤3-5,从而更新所有词的特征向量。 |
申请公布号 |
CN103995805A |
申请公布日期 |
2014.08.20 |
申请号 |
CN201410247336.8 |
申请日期 |
2014.06.05 |
申请人 |
神华集团有限责任公司;神华和利时信息技术有限公司 |
发明人 |
王继生;潘涛;向阳 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京润平知识产权代理有限公司 11283 |
代理人 |
罗攀;肖冰滨 |
主权项 |
一种面向文本大数据的词语处理方法,该方法包括:步骤1:从文本语料库中选择多个词语,针对该多个词语中的每一个词语构建一个K维特征向量,该特征向量的各维度初值由0‑1区间内的均匀分布产生;步骤2:使用N元语法模型N‑gram方法将文本表示为由一组特征向量组合成的N‑gram模型;步骤3:利用神经网络模型,计算该N‑gram模型的得分;步骤4:用一随机词替换该N‑gram模型的中间位置词,并计算替换后模型的得分;步骤5:利用反向传播算法更新N‑gram模型中的N维词向量,最终得到嵌入空间的词特征;步骤6:针对基于所述语料库所构造的每一组N‑gram模型,重复步骤3‑5,从而更新所有词的特征向量。 |
地址 |
100011 北京市东城区安外西滨河路22号神华大厦 |