发明名称 |
一种汉语高危词识别方法和系统 |
摘要 |
本发明公开了一种汉语高危词识别方法和系统。所述方法包括:建立第一列表和第二列表;第二列表中保存高危词的全拼音串;第一列表中保存高危词的首字拼音和词长信息之间的对应关系;然后对于汉语句子S逐字进行解析,对于S中的每个当前汉字:将该当前汉字转换成拼音,根据该拼音去查询第一列表,判断第一列表中是否存在同样的拼音,是则根据该存在的同样的拼音所对应的词长信息对S进行截取,得到C,将C转换成全拼音串后,查询第二列表,判断第二列表中是否存在C的全拼音串,是则确定S中存在高危词。本发明的技术方案能够从给定的句子中快速查找出高危词。 |
申请公布号 |
CN102253983A |
申请公布日期 |
2011.11.23 |
申请号 |
CN201110176587.8 |
申请日期 |
2011.06.28 |
申请人 |
北京新媒传信科技有限公司 |
发明人 |
张雁飞 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京市隆安律师事务所 11323 |
代理人 |
权鲜枝 |
主权项 |
一种汉语高危词识别方法,其特征在于,建立第一列表和第二列表;第二列表中保存了所搜集的所有高危词的全拼音串;第一列表中保存首字拼音和词长信息之间的对应关系,其中首字拼音是高危词的首字拼音,词长信息是读音与该首字拼音相同的各高危词的词长信息;则对于汉语句子S进行高危词识别的过程包括:步骤一,将S的当前汉字转换成拼音;其中,初始时S的当前汉字为S中的从左边数第一个汉字,之后,每次向右前进一个汉字,作为S的当前汉字,直到S的最右边的汉字;步骤二,根据步骤一中转换得到拼音去查询第一列表,判断第一列表中是否存在同样的拼音,是则执行步骤三,否则返回步骤一;步骤三,根据该存在的同样的拼音所对应的词长信息对S进行截取,得到C;步骤四,将C转换成全拼音串后,查询第二列表,判断第二列表中是否存在C的全拼音串,是则确定S中存在高危词,退出流程,否则,返回步骤一。 |
地址 |
100089 北京市海淀区万泉庄路28号万柳新贵大厦A座5层 |