发明名称 |
半监督式的海量数据层次分类方法 |
摘要 |
针对海量数据层次分类器人工标注时间多、花费大的问题,本发明提出一种半监督式的海量数据层次分类方法,包括以下步骤:对网页库中的网页进行特征提取;在已有的层次分类本体库上,利用规则集和扩展规则来自动产生叶节点的训练集;对已有的各个叶节点的网页进行聚类,在聚类的基础上对未标注集进行分类,并把未标注集中与训练集相似的例子加入相应叶节点的训练集,从而扩大了训练集的规模;使用随机梯度下降的方法来对各个节点的正则线性分类器进行训练;如果分类器的结果满足停止条件,则停止,否则进行至步骤F;用通过步骤C,D建立的层次分类器来对未标注进行分类;并且把具有高信心度分类的网页加入训练集;返回步骤C,重复步骤C-F。 |
申请公布号 |
CN101872343A |
申请公布日期 |
2010.10.27 |
申请号 |
CN200910030588.4 |
申请日期 |
2009.04.24 |
申请人 |
罗彤 |
发明人 |
罗彤 |
分类号 |
G06F17/30(2006.01)I;G06N1/00(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种海量数据的半监督的分类方法,其特征在于混合使用监督和无监督的机器学习方法来减少对人工标注的依赖,使用随机梯度下降方法来训练海量数据的正则线性分类器,其训练过程包括如下步骤:A、对网页库中的网页进行特征提取;B、在已有的层次分类本体库上,利用规则集和扩展规则来自动产生叶节点的训练集;C、对已有的各个叶节点的网页进行聚类,在聚类的基础上对未标注集进行分类,并把未标注集中与训练集相似的例子加入相应叶节点的训练集,从而扩大了训练集的规模;D、使用随机梯度下降的方法来对各个节点的正则线性分类器进行训练;E、如果分类器的结果满足停止条件,则停止,否则进行至步骤F;F、用通过步骤C,D建立的层次分类器来对未标注进行分类;并且把具有高信心度分类的网页加入训练集; |
地址 |
210008 江苏省无锡市兴源北路401号 |