发明名称 基于语言实义单元数估计的短文本间文本距离的计算方法
摘要 基于语言实义单元数估计的短文本间文本距离的计算方法属于中文短文本信心处理领域,其特征在于,这是用于处理在线评论短文本文本聚类的方法,先去除网页标记,并进行短文本规范化处理,再进行分词处理,将文本转化为词语串,在此基础上以词语为单位,计算两个句子的编辑距离,然后将句子中具有实质意义的词语数定义为实义单元,利用Heap’s法则对句子中的实义单元进行估计,再选择两个句子的实义单元数中较大的实义单元数,用较大的实义单元数对用编辑距离表示的文本距离进行文本长度惩罚,得到一个经过实义单元数惩罚的文本距离,本发明克服了传统方法中利用原始句长处理而带来的误差。
申请公布号 CN102622405A 申请公布日期 2012.08.01
申请号 CN201210012475.3 申请日期 2012.01.16
申请人 北京工业大学 发明人 杨震;王来涛;赖英旭;高凯明;张龙伯;段立娟;范科峰
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 11203 代理人 楼艮基
主权项 1.基于语言实义单元数估计的短文本间文本距离的计算方法,其特征在于,是在计算机中依次按以下步骤实现的:步骤(1)计算机初始化输入:从网络获得的两类在线评论短文本,所述两类在线评论短文本各由若干数目的句子组成;汉语词法分析系统ICTCLAS分词算法软件模块;Matlab工具箱中的函数拟合工具Curve Fitting Tool;步骤(2)文本预处理步骤(2.1)去除所述两类在线评论短文本中包含的&lt;html&gt;、&lt;body&gt;、&lt;div&gt;等html网页标记;步骤(2.2)把步骤(2.1)中去除了html网页标记的所述两类在线评论短文本做变异短文本处理:不规范的拼音文字、繁体字规范化,去除用于表示一个表情的不规范符号,对数字和标点符号的使用进行规范化;步骤(3)按以下步骤计算由步骤(2)预处理过的所述两类在线评论短文本间的文本距离;步骤(3.1)用ICTCLAS分词算法对步骤(3)中所述的经过预处理的所述两类在线评论短文本进行分词处理,将短文本句子转化为词语串;步骤(3.2)以步骤(3.1)中两类在线评论短文本中的词语为单位,用编辑距离算法计算所述两类在线评论短文本间的编辑距离,并以此作为文本距离:把一个句子转换为另一个句子所需要的最少的词语编辑操作次数;计算两个句子的编辑距离计算矩阵,该矩阵的最右下角单元的值即为两个句子间的文本距离:dis(S<sub>1</sub>,S<sub>2</sub>)=3,“dis”表示文本距离,S<sub>1</sub>、S<sub>2</sub>表示所述两个句子;步骤(4)依次按一下的步骤,用步骤(1)中所述的在线评论短文本中的实义单元数对步骤(3.2)得到的所述两个句子间的文本距离dis(S<sub>1</sub>,S<sub>2</sub>)进行惩罚,得到经过实义单元数惩罚的文本距离dis’(S<sub>1</sub>,S<sub>2</sub>);步骤(4.1)对步骤(1)中所述的两类在线评论短文本中的词语进行词频统计,按照词语出现频率的降序进行排序,得到各自的词频降序表;步骤(4.2)把所述两类在线评论短文本中各自的词频降序表导入所述的matlab工具箱中作为数据集,对照Zipf’s法则中的词频f与对应名次r的公式:f(r)=f<sub>max</sub>·r<sup>-α</sup>其中,f<sub>max</sub>为系数,大于0;α为Zipf指数,大于0;选择Matlab工具箱中Power选项中的a·x<sup>b</sup>,以此作为数据拟合的目标函数,进行数据拟 合,得到b,b<0,得到所述两类在线评论短文本各自的Zipf指数α=|b|;步骤(4.3)按下式得到所述两类在线评论短文本中每条句子各自的实义单元数N(t):<img file="FDA0000131233920000021.GIF" wi="526" he="145" />其中所述实义单元数是指所述两类在线评论短文本的每个句子中具有实义内容的内容数,其中不包括对表达文本内容没有贡献的文本信息;t为以词语为单位的所述两类在线评论文本中每个句子的长度;步骤(4.4)比较步骤(3.2)得到的原始的文本距离dis(S<sub>1</sub>,S<sub>2</sub>)与步骤(4.3)得到的经过所述实义单元数惩罚过的文本距离dis’(S<sub>1</sub>,S<sub>2</sub>);选择所述两类在线评论短文本中两个句子的实义单元数中较大的实义单元数max(N(t1),N(t2)),对所述dis(S<sub>1</sub>,S<sub>2</sub>)进行长度惩罚,得到最终文本距离dis’(S<sub>1</sub>,S<sub>2</sub>):dis(S<sub>1</sub>,S<sub>2</sub>)=dis(S<sub>1</sub>,S<sub>2</sub>)/max(N(t<sub>1</sub>),N(t<sub>2</sub>)) 。
地址 100124 北京市朝阳区平乐园100号