发明名称 |
一种优化机器学文本中词语分类的方法 |
摘要 |
本发明涉及数据处理与机器学分类领域,尤其是一种优化机器学文本中词语分类的方法。本发明所述的方法是在文本分类基础上,以正则表达式为基础的特征选择规则器过滤出自定义的与语义相关的特征,在特征选择后用户自定义训练数据中的分类类别,进而利用这些特征与类别根据朴素贝叶斯模型来进行分类训练;当完成训练后,在应用阶段时,需词语分类的文本中如果存在符合特征选择规则器的语句时,结合已经训练完成的模型完成分类。本发明使得模型处理词语分类的能力不仅限于训练样本中的单词数据;可以应用于机器学文本词语分类及其衍生功能的优化与应用中。 |
申请公布号 |
CN106446230A |
申请公布日期 |
2017.02.22 |
申请号 |
CN201610881132.9 |
申请日期 |
2016.10.08 |
申请人 |
国云科技股份有限公司 |
发明人 |
郭宇;李永波;季统凯 |
分类号 |
G06F17/30(2006.01)I;G06K9/62(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
广东莞信律师事务所 44332 |
代理人 |
余伦 |
主权项 |
一种优化机器学习文本中词语分类的方法,其特征在于:所述的方法是在文本分类基础上,以正则表达式为基础的特征选择规则器过滤出自定义的与语义相关的特征,在特征选择后用户自定义训练数据中的分类类别,进而利用这些特征与类别根据朴素贝叶斯模型来进行分类训练;当完成训练后,在应用阶段时,需词语分类的文本中如果存在符合特征选择规则器的语句时,结合已经训练完成的模型完成分类。 |
地址 |
523808 广东省东莞市松山湖科技产业园区松科苑14号楼 |