发明名称 基于汉语句义结构模型和主题模型的句子表示方法
摘要 本发明涉及一种基于汉语句义结构模型和主题模型的句子表示方法,属于计算机科学与自然语言处理中文分析技术领域。本发明首先对句子进行句义结构分析,得到句子的句义结构;进而提取句子中的基本项词语和一般项词语,使用主题模型分析得到基本项知识库和一般项知识库;最终根据句义结构中话题和述题下词语,使用上一步分析得到的知识库对句子内容进行扩充,得到句子表示结果。本发明为为解决句子表示的特征稀疏问题提供了新的思路,并有效提升了句子的分类效果,具有重要的理论价值和实践作用。
申请公布号 CN105573985A 申请公布日期 2016.05.11
申请号 CN201610124099.5 申请日期 2016.03.04
申请人 北京理工大学 发明人 罗森林;韩磊;潘丽敏;尚海
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 代理人
主权项 基于汉语句义结构模型和主题模型的句子表示方法,所述方法包括以下步骤:步骤1,对句子进行句义结构分析,获取句子中基本项词语、一般项词语、话题词语和述题词语;在上述步骤中,基本项词语是指在句子的句义结构中,该词语作为基本项;一般项词语是指在句子的句义结构中,该词语作为一般项;话题词语是指在句子的句义结构中,该词语隶属于话题;述题词语是指在句子的句义结构中,该词语隶属于述题;步骤2,在步骤1的基础上,构建知识库,具体方法为:针对句子的句义结构,分别提取其中词语,进行主题模型分析,得到主题‑词语的分布,该分布即为知识库;步骤2.1,以步骤1得到句义结构的基本项为输入,构建基本项知识库,具体方法为:依据句子的句义结构,提取其中作为基本项的词语构成文本‑基本项词语矩阵,进行主题模型分析,得到主题‑基本项词语分布,即为基本项知识库;步骤2.2,以步骤1得到句义结构的一般项为输入,构建一般项知识库,具体方法为:依据句子的句义结构,提取其中作为一般项的词语构成文本‑一般项词语矩阵,进行主题模型分析,得到主题‑一般项词语分布,即为一般项知识库步骤3,在步骤1得到句子句义结构和步骤2得到知识库的基础上,对句子中词语进行扩充;步骤3.1,以步骤1得到的话题下词语和步骤2得到的基本项和一般项知识库为输入,对话题下词语进行扩充,具体方法为:依据句子的句义结构,提取其中话题下的词语,这些词语中的基本项词语,使用基本项知识库进行扩充,一般项词语使用一般项知识库进行扩充,得到话题表示向量;步骤3.2,以步骤1得到的述题下词语和步骤2得到的基本项和一般项知识库为输入,对述题下词语进行扩充,具体方法为:依据句子的句义结构,提取其中话题下的词语,这些词语中的基本项词语,使用基本项知识库进行扩充,一般项词语使用一般项知识库进行扩充,得到述题表示向量;步骤4,在步骤3对句子中词语进行扩充的基础上,合并已扩充的话题和述题表示向量,构建句子表示向量,得到句子表示结果。
地址 100081 北京市海淀区中关村南大街5号北京理工大学
您可能感兴趣的专利