发明名称 文本特征提取策略制定方法及装置、文本分类方法及装置
摘要 本发明公开了一种自适应文本分类方法。该方法包括步骤:将策略数据库中的文本特征提取策略之一映射到基于文本特征的文本分类器,并对于待分类语料进行文本分类;当所述策略数据库中的任意一个文本特征提取策略均不适用于所述待分类语料时,对于所述待分类语料进行全局样式分析,得到全局样式分析结果;对于经过所述全局样式分析的所述待分类语料进行局部样式分析,得到局部样式分析结果;将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略,并存储到策略数据库中;将所述文本特征提取策略映射到基于文本特征的文本分类器,并进行所述待分类语料的文本分类。
申请公布号 CN102163190B 申请公布日期 2013.09.11
申请号 CN201010120134.9 申请日期 2010.02.20
申请人 三星电子(中国)研发中心;三星电子株式会社 发明人 姜赢;王进;彭鸽;刘思培;胡晨
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京铭硕知识产权代理有限公司 11286 代理人 韩明星;王艳娇
主权项 一种用于文本分类的文本特征提取策略制定方法,包括步骤:对于待分类语料进行全局样式分析,得到全局样式分析结果;对经过全局样式分析的待分类语料进行局部样式分析,得到局部样式分析结果;将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略,并存储到策略数据库中,其中,所述全局样式分析包括:调整所述待分类语料所包含的各类文档之间的文档数量平衡度;预估分类消耗时间或资源,如果预估结果大于预定值,则对于所述待分类语料进行文本摘要处理;计算特征提取总体数量以及所述各类的特征提取数量,作为所述全局样式分析结果,其中,局部样式分析包括:从经过所述全局样式分析的所述待分类语料中抽样出文档集合,并从所述文档集合中抽样出句子集合;计算所述文档集合的句子平均长度及长度分布、所述句子集合的句法树平均深度及深度分布;根据所述句子平均长度及分布、句法树平均深度及分布,得到特征提取类型。
地址 210008 江苏省南京市中山路268号汇杰广场8楼