一种基于深度学的非监督命名实体语义消歧方法,申请号CN201410488048.1-传众专利搜索

发明名称	一种基于深度学的非监督命名实体语义消歧方法
摘要	本发明提供了一种基于深度学的非监督命名实体语义消歧方法，针对某一特定领域，在垂直网站上抓取评论数据并进行预处理；对评论数据中文分词；利用主题模型对词进行主题聚类，生成包含主题信息的文档主题词分布；对词集合中的所有词，使用基于深度学的词聚类方法word2vec进行关键词聚类，提取和关键词语义接近的词；使用条件随机场该模型识别评论数据中的命名实体；根据步骤4主题聚类的聚类结果，构建不同主题下的词集合，计算文档和词集合的相似度，选取文档主题，得出文档中命名实体的语境含义，从而消除语义岐义。本发明实现了以比较高的可解释度和精确度来进行命名实体消歧，满足了特定领域且需要大量的知识库的要求。
申请公布号	CN104268200A	申请公布日期	2015.01.07
申请号	CN201410488048.1	申请日期	2014.09.22
申请人	中科嘉速(北京)并行软件有限公司	发明人	余雷;邓攀;闫碧莹;袁伟;李玉成;万安格
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京永创新实专利事务所 11121	代理人	祗志洁
主权项	一种基于深度学习的非监督命名实体语义消歧方法，针对某一特定领域，其特征在于，进行如下步骤：步骤1：构建爬虫程序，在垂直网站上抓取领域内的评论数据；步骤2：对评论数据进行预处理，包括：去重处理，根据数据长度进行清洗，去除垃圾广告，去除评论数据中的网址，去除自动评论数据；将预处理后的评论数据用于下面步骤；步骤3：对评论数据进行中文分词，去除停用词，获取词集合；步骤4：对词集合中的词建立索引，利用主题模型对词进行主题聚类，生成包含主题信息的文档主题词分布；步骤5：使用基于深度学习的词聚类方法word2vec进行关键词聚类，提取和关键词语义接近的前X个关键词；X为正整数；步骤6：使用条件随机场该模型识别评论数据中的命名实体；步骤7：根据步骤4主题模型的聚类结果，构建不同主题下的词集合，计算文档和词集合的相似度，取相似度最高的前Y个主题作分析和比较，得出文档中命名实体的语境含义，从而消除语义岐义；Y为正整数。
地址	100190 北京市海淀区中关村南四街4号