发明名称 |
采用特征扩展分类文本及构造文本分类器的方法和装置 |
摘要 |
一种通过对训练集的文本信息对象进行特征扩展处理来构造文本分类器的方法,以及对应于该方法的文本分类装置。通过对文本进行特征扩展处理来分类文本,以及对训练文本进行特征扩展处理来构造分类器,改善了分类器性能,能够对短文本信息中的有害信息进行及时拦截和过滤。对短文本具有良好的识别能力及分类能力。本发明特别适合于对即时通讯系统QQ,MSN和手机短消息中的文本,以及网络评论中的文本的处理。 |
申请公布号 |
CN101794303A |
申请公布日期 |
2010.08.04 |
申请号 |
CN201010109188.5 |
申请日期 |
2010.02.11 |
申请人 |
重庆邮电大学;樊兴华 |
发明人 |
樊兴华 |
分类号 |
G06F17/30(2006.01)I;G06K9/62(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
重庆市恒信知识产权代理有限公司 50102 |
代理人 |
刘小红 |
主权项 |
一种通过对文本信息对象进行特征扩展处理构造分类器的方法,所述分类器用于确定一个文本信息对象是否属于一个种类,其特征在于,该方法包括以下步骤:a)特征抽取处理模块从文本信息对象中抽取特征,生成一个包含多个特征的特征序列;b)特征精简模块根据标准确定阈值,对与训练语料集的文本信息对象相对应的特征序列集进行特征选择处理,生成特征集的子集—精简特征集;c)特征扩展模式抽取处理模块对特征序列集和精简特征集进行处理,抽取特征扩展模式,构成特征扩展模式集,所述特征扩展模式包括左部和右部两部分,左部由特征序列集中的一个或者多个特征构成,右部由精简特征集中的一个精简特征构成;d)特征扩展处理模块利用精简特征集和特征扩展模式集对特征序列进行特征扩展处理,生成仅由精简特征构成的精简特征序列,精简特征序列中的元素为单个精简特征或者多个精简特征构成;e)生成处理模块对精简特征序列中的每个精简特征调整权重,生成精简特征向量。f)分类器构造处理模块根据与训练语料集的文本信息对象相对应的精简特征向量集构造文本分类器;文本分类器根据与待分类文本信息对象相对应的精简特征向量对文本信息对象进行分类处理。 |
地址 |
400065 重庆市南岸区黄桷垭崇文路2号 |