发明名称 一种微博文本中产品名实体的规范化方法及装置
摘要 本发明涉及一种微博文本中产品名实体的规范化方法及其装置,属于互联网数据处理与分析技术领域。本发明方法利用词向量方法进行词的表示,并采用向量的相似度度量词的语义相似度,将待规范化的实体和与其最相似的K个词进行知识库的匹配,对其所属的品牌名进行权重的计算;同时引入了微博用户的交互关系和局部上下文中出现的实体信息进行产品实体的规范化。对比现有技术,本发明有效的解决了微博文本中因文本短、上下文信息不足等造成的产品名实体歧义问题,提高了微博文本中产品名实体规范化的性能。
申请公布号 CN105468780A 申请公布日期 2016.04.06
申请号 CN201510958361.1 申请日期 2015.12.18
申请人 北京理工大学 发明人 黄河燕;杨献祥
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种微博文本中产品名实体的规范化方法,其特征在于:包括以下步骤:步骤1,基于产品相关数据构建产品名实体知识库;步骤2,采用领域相关的微博数据训练词向量模型;步骤3,利用已构建的产品名实体知识库和训练好的词向量模型进行实体的规范化。
地址 100081 北京市海淀区中关村南大街5号北京理工大学