发明名称 一种基于WEB挖掘的非规范语言处理方法
摘要 一种基于WEB挖掘的非规范语言处理方法,本发明涉及计算机数据挖掘领域,特别涉及到网络情感挖掘方案的技术。本专利公开一种对网络非规范语言进行处理的方法,属于计算机数据挖掘领域。该方法提出运用最小化监督学的方法来处理非规范语言。将正常的非规范语言的种类由六类简化为两种不相交的类别:典型非规范语言和歧义非规范语言。对于典型非规范语言,提出一种基于序列覆盖的模式匹配算法。而对于歧义非规范语言,提出一种基于特征抽取的分类算法将其处理。最终能够得到完全正规的书面词语,从而方便了主观意见型的挖掘工作,能够更好的抽取情感,意见,建议等信息。
申请公布号 CN101763352A 申请公布日期 2010.06.30
申请号 CN200810207672.4 申请日期 2008.12.24
申请人 张霄凯;杨帆;史天艺 发明人 张霄凯;杨帆;史天艺;尹航
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种网络非规范语言的处理方法,其目的在于应用最小化的训练数据就可以得到很好的处理结果。将网络上经常使用的非规范语言分为两大类:典型非规范语言和歧义非规范语言。针对不同类型采用不同的处理方法。其目的是使用尽量少的训练数据得到最大化的正规化处理结果。
地址 200240 上海市闵行区东川路800号D31-105室