发明名称 |
一种基于WEB挖掘的非规范语言处理方法 |
摘要 |
一种基于WEB挖掘的非规范语言处理方法,本发明涉及计算机数据挖掘领域,特别涉及到网络情感挖掘方案的技术。本专利公开一种对网络非规范语言进行处理的方法,属于计算机数据挖掘领域。该方法提出运用最小化监督学的方法来处理非规范语言。将正常的非规范语言的种类由六类简化为两种不相交的类别:典型非规范语言和歧义非规范语言。对于典型非规范语言,提出一种基于序列覆盖的模式匹配算法。而对于歧义非规范语言,提出一种基于特征抽取的分类算法将其处理。最终能够得到完全正规的书面词语,从而方便了主观意见型的挖掘工作,能够更好的抽取情感,意见,建议等信息。 |
申请公布号 |
CN101763352A |
申请公布日期 |
2010.06.30 |
申请号 |
CN200810207672.4 |
申请日期 |
2008.12.24 |
申请人 |
张霄凯;杨帆;史天艺 |
发明人 |
张霄凯;杨帆;史天艺;尹航 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种网络非规范语言的处理方法,其目的在于应用最小化的训练数据就可以得到很好的处理结果。将网络上经常使用的非规范语言分为两大类:典型非规范语言和歧义非规范语言。针对不同类型采用不同的处理方法。其目的是使用尽量少的训练数据得到最大化的正规化处理结果。 |
地址 |
200240 上海市闵行区东川路800号D31-105室 |