发明名称 文章分类方法
摘要 本案系指一种文章分类方法,其包含下列步骤:(a)提供一待分类文章;(b)分析该待分类文章中之所有词性;(c)于该所有词性中选出复数个关键词组,并根据该复数个关键词组间之相关性以建立一实体论架构;(d)计算出该实体论架构中各层间之概念输出值;(e)计算出该实体论架构中最顶层之关系输出值;(f)将该概念输出值及该关系输出值结合成一特征值;(g)提供至少一训练资料,经由一训练方式以获得该至少一训练资料中各分类层之键结值;以及(h)输入该特征值,并利用该至少一训练资料中各分类层之键结值作推论,藉以获得一输出向量组,该输出向量组中之输出向量值最高者所对应之分类层为该待分类文章之所属类别。
申请公布号 TW578097 申请公布日期 2004.03.01
申请号 TW091117713 申请日期 2002.08.06
申请人 华新丽华股份有限公司 发明人 郭耀煌;李健兴;龚俊杰;许振鹏
分类号 G06F7/08;G06F17/30 主分类号 G06F7/08
代理机构 代理人 蔡清福 台北市中正区忠孝东路一段一七六号九楼
主权项 1.一种文章分类方法,其包含下列步骤: (a)提供一待分类文章; (b)分析该待分类文章中之所有词性; (c)于该所有词性中选出复数个关键词组,并根据该 复数个关键词组间之相关性以建立一实体论架构; (d)计算出该实体论架构中各层间之概念输出値; (e)计算出该实体论架构中最顶层之关系输出値; (f)将该概念输出値及该关系输出値结合成一特征 値; (g)提供至少一训练资料,经由一训练方式以获得该 至少一训练资料中各分类层之键结値;以及 (h)输入该特征値,并利用该至少一训练资料中各分 类层之键结値作推论,藉以获得一输出向量组,该 输出向量组中之输出向量値最高者所对应之分类 层为该待分类文章之所属类别。2.如申请专利范 围第1项所述之文章分类方法,其中该步骤(a)中之 该待分类文章为可扩展标记语言格式。3.如申请 专利范围第1项所述之文章分类方法,其中该步骤(c )中之该复数个关键词组系指名词与动词。4.如申 请专利范围第1项所述之文章分类方法,其中该步 骤(c)中之相关性系指概念名称。5.如申请专利范 围第1项所述之文章分类方法,其中该步骤(c)中之 相关性系指属性。6.如申请专利范围第1项所述之 文章分类方法,其中该步骤(c)中之相关性系指运算 。7.如申请专利范围第1项所述之文章分类方法,其 中该步骤(g)中之该至少一训练资料系指各种不同 类别之文件。8.如申请专利范围第1项所述之文章 分类方法,其中该步骤(g)系藉由一模糊类神经网路 所完成。9.如申请专利范围第8项所述之文章分类 方法,其中该模糊类神经网路系指一模糊倒传递网 路。10.如申请专利范围第9项所述之文章分类方法 ,其中该步骤(g)中之该训练方式可区分为一第一阶 段及一第二阶段。11.如申请专利范围第10项所述 之文章分类方法,其中该第一阶段用以计算一网路 输出値。12.如申请专利范围第11项所述之文章分 类方法,其中该第二阶段则透过一错误更正法进行 该键结値修正,使该网路输出値能更趋于期望输出 。13.如申请专利范围第1项所述之文章分类方法, 其中该步骤(h)中系利用一模糊推论法以完成。14. 一种文章分类方法,其包含下列步骤: (a)于一待分类文章之所有词性中选出复数个关键 词组,并根据该复数个关键词组间之相关性以建立 一概念阶层; (b)藉由该概念阶层可定义出该待分类文章之特征 値; (c)定义至少一训练资料中各分类层之键结値;以及 (d)输入该特征値,并利用该至少一训练资料中各分 类层之键结値作推论,藉以获得一输出参数组,该 输出参数组中之输出参数极値所对应之分类层为 该待分类文章之所属类别。15.如申请专利范围第 14项所述之文章分类方法,其中该步骤(a)之前又包 含下列步骤: (a1)提供该待分类文章;以及 (a2)分析该待分类文章中之所有词性。16.如申请专 利范围第14项所述之文章分类方法,其中该步骤(a) 中之该待分类文章为可扩展标记语言格式。17.如 申请专利范围第14项所述之文章分类方法,其中该 步骤(a)中之该复数个关键词组系指名词与动词。 18.如申请专利范围第14项所述之文章分类方法,其 中该步骤(a)中之相关性系指概念名称。19.如申请 专利范围第14项所述之文章分类方法,其中该步骤( a)中之相关性系指属性。20.如申请专利范围第14项 所述之文章分类方法,其中该步骤(a)中之相关性系 指运算。21.如申请专利范围第14项所述之文章分 类方法,其中该步骤(a)中之该概念阶层系根据一实 体论架构所完成。22.如申请专利范围第14项所述 之文章分类方法,其中该步骤(b)之前又包含一步骤 (b1)计算该概念阶层中各层之相关参数。23.如申请 专利范围第22项所述之文章分类方法,其中该步骤( b1)系可藉由下列步骤来完成: (b11)计算出该概念阶层中各层间之概念输出値; (b12)计算出该概念阶层中最顶层之关系输出値;以 及 (b13)将该概念输出値及该关系输出値结合成该特 征値。24.如申请专利范围第22项所述之文章分类 方法,其中该步骤(b1)中之该相关参数系指该概念 输出値及该关系输出値。25.如申请专利范围第14 项所述之文章分类方法,其中该步骤(c)之前又包含 一步骤(c1)提供至少一训练资料,经由一运算式以 获得该至少一训练资料中各分类层之键结値。26. 如申请专利范围第14项所述之文章分类方法,其中 该步骤(c)中之该至少一训练资料系指各种不同类 别之文件。27.如申请专利范围第14项所述之文章 分类方法,其中该步骤(c)系藉由一模糊类神经网路 所完成。28.如申请专利范围第24项所述之文章分 类方法,其中该模糊类神经网路系指一模糊倒传递 网路。29.如申请专利范围第14项所述之文章分类 方法,其中该步骤(d)之前又包含步骤(d1)经由一训 练方式以获得具有较小改变量之键结値。30.如申 请专利范围第29项所述之文章分类方法,其中该步 骤(d1)中之该训练方式可区分为一第一阶段及一第 二阶段。31.如申请专利范围第30项所述之文章分 类方法,其中该第一阶段用以计算一网路输出値。 32.如申请专利范围第31项所述之文章分类方法,其 中该第二阶段则透过一错误更正法进行该键结値 修正,使该网路输出値能更趋于期望输出。33.如申 请专利范围第14项所述之文章分类方法,其中该步 骤(d)中系利用一模糊推论法以完成。34.如申请专 利范围第14项所述之文章分类方法,其中该步骤(d) 中之该输出参数组系指一输出向量组。35.如申请 专利范围第34项所述之文章分类方法,其中该步骤( d)中之该输出参数及値指一输出向量値最高者。 图式简单说明: 第一图:习用之分类架构树状图。 第二图:基于实体论架构之文件分类法系统架构图 。 第三图:本案较佳实施例中所预先架构之特定领域 之知识地图。 第四图(a)~(g):本案较佳实施例中所建构出之新闻 领域之知识地图。 第五图:本案较佳实施例之文件分类架构示意图。 第六图:表示不同斜率a之S型(sigmoid)函数示意图。 第七图:渐进式的特征选取图。 第八图:第一种方法的精确度数据图。 第九图:第一种方法在倒传递类神经网路的(Error Energy)。 第十图:第二种方法的精确度数据图。 第十一图:第二种方法在倒传递类神经网路的(Error Energy)。
地址 台北市松山区民生东路三段一一七号十二楼