发明名称 一种粒度可量化的话题提取方法
摘要 本发明属于文本分析技术领域,具体涉及一种粒度可量化的话题提取方法。本发明通过对文本集的词频矩阵进行DCT变换,转换成代表词语能量的矩阵,根据这种矩阵中的能量分布特点,进行变换矩阵的能量分割,从而将话题粒度与用户所期望的粒度参数对应起来。在能量分割的基础上进行DCT反变换,从而得到与粒度相对应的特征空间,在这个空间中运用现有的话题提取方法提取粒度话题,从而完成粒度可量化的话题提取。本发明为用户比较准确地提取粒度话题提供有效方法,适应于各种需要粒度理解的话题提取场合。
申请公布号 CN101655838A 申请公布日期 2010.02.24
申请号 CN200910195458.6 申请日期 2009.09.10
申请人 复旦大学 发明人 曾剑平;吴承荣
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 上海正旦专利代理有限公司 代理人 陆 飞;盛志范
主权项 1、一种粒度可量化的话题提取方法,其特征在于具体步骤如下::(1)通过网络爬虫技术,从互联网上下载与某个话题相关的文本记录,从而构成一个包含多个文本的文本数据集;(2)采用现有的分词方法将所有文本记录分割成独立的词序列,同时去除停用词,从而将整个文本集中的文本用单个词语来描述;(3)为文本集构造词语频率矩阵,矩阵的行表示词语,列表示文档,矩阵中的元素表示词语在该文档中出现的频率;矩阵的大小为词语的总数×文档总数;(4)对词语频率矩阵进行分割,得到若干个小的矩阵,对每个小的矩阵执行如下过程:(a)进行离散余弦变换变换,得到变换矩阵;(b)根据用户提供的话题粒度参数值,对变换后的矩阵进行量化,从而得到量化矩阵;(c)对量化矩阵进行离散余弦变换逆变换;(5)对这些逆变换结果所得到的矩阵进行组合,得到与原始词频矩阵对应的词频矩阵,从而得到与粒度对应的特征词空间;(6)对变换后的词频矩阵,运用现有的话题提取算法,进行话题提取,从而得到与该粒度相对应的话题描述;(7)根据用户不同的粒度分析需求,重复执行步骤(4)-(6),直到用户粒度话题都提取完成。
地址 200433上海市邯郸路220号
您可能感兴趣的专利