发明名称 面向文本大数据的词语处理方法
摘要 本发明公开了一种面向文本大数据的词语处理方法,该方法包括:步骤1:从文本语料库中选择多个词语,针对该多个词语中的每一个词语构建一个K维特征向量,该特征向量的各维度初值由0-1区间内的均匀分布产生;步骤2:使用N元语法模型N-gram方法将文本表示为由一组特征向量组合成的N-gram模型;步骤3:利用神经网络模型,计算该N-gram模型的得分;步骤4:用一随机词替换该N-gram模型的中间位置词,并计算替换后模型的得分;步骤5:利用反向传播算法更新N-gram模型中的N维词向量,最终得到嵌入空间的词特征;步骤6:针对基于所述语料库所构造的每一组N-gram模型,重复步骤3-5,从而更新所有词的特征向量。
申请公布号 CN103995805A 申请公布日期 2014.08.20
申请号 CN201410247336.8 申请日期 2014.06.05
申请人 神华集团有限责任公司;神华和利时信息技术有限公司 发明人 王继生;潘涛;向阳
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京润平知识产权代理有限公司 11283 代理人 罗攀;肖冰滨
主权项 一种面向文本大数据的词语处理方法,该方法包括:步骤1:从文本语料库中选择多个词语,针对该多个词语中的每一个词语构建一个K维特征向量,该特征向量的各维度初值由0‑1区间内的均匀分布产生;步骤2:使用N元语法模型N‑gram方法将文本表示为由一组特征向量组合成的N‑gram模型;步骤3:利用神经网络模型,计算该N‑gram模型的得分;步骤4:用一随机词替换该N‑gram模型的中间位置词,并计算替换后模型的得分;步骤5:利用反向传播算法更新N‑gram模型中的N维词向量,最终得到嵌入空间的词特征;步骤6:针对基于所述语料库所构造的每一组N‑gram模型,重复步骤3‑5,从而更新所有词的特征向量。
地址 100011 北京市东城区安外西滨河路22号神华大厦