面向文本大数据的词语处理方法,申请号CN201410247336.8-传众专利搜索

发明名称	面向文本大数据的词语处理方法
摘要	本发明公开了一种面向文本大数据的词语处理方法，该方法包括：步骤1：从文本语料库中选择多个词语，针对该多个词语中的每一个词语构建一个K维特征向量，该特征向量的各维度初值由0-1区间内的均匀分布产生；步骤2：使用N元语法模型N-gram方法将文本表示为由一组特征向量组合成的N-gram模型；步骤3：利用神经网络模型，计算该N-gram模型的得分；步骤4：用一随机词替换该N-gram模型的中间位置词，并计算替换后模型的得分；步骤5：利用反向传播算法更新N-gram模型中的N维词向量，最终得到嵌入空间的词特征；步骤6：针对基于所述语料库所构造的每一组N-gram模型，重复步骤3-5，从而更新所有词的特征向量。
申请公布号	CN103995805A	申请公布日期	2014.08.20
申请号	CN201410247336.8	申请日期	2014.06.05
申请人	神华集团有限责任公司;神华和利时信息技术有限公司	发明人	王继生;潘涛;向阳
分类号	G06F17/27(2006.01)I	主分类号	G06F17/27(2006.01)I
代理机构	北京润平知识产权代理有限公司 11283	代理人	罗攀;肖冰滨
主权项	一种面向文本大数据的词语处理方法，该方法包括：步骤1：从文本语料库中选择多个词语，针对该多个词语中的每一个词语构建一个K维特征向量，该特征向量的各维度初值由0‑1区间内的均匀分布产生；步骤2：使用N元语法模型N‑gram方法将文本表示为由一组特征向量组合成的N‑gram模型；步骤3：利用神经网络模型，计算该N‑gram模型的得分；步骤4：用一随机词替换该N‑gram模型的中间位置词，并计算替换后模型的得分；步骤5：利用反向传播算法更新N‑gram模型中的N维词向量，最终得到嵌入空间的词特征；步骤6：针对基于所述语料库所构造的每一组N‑gram模型，重复步骤3‑5，从而更新所有词的特征向量。
地址	100011 北京市东城区安外西滨河路22号神华大厦