发明名称 一种汉语高危词识别方法和系统
摘要 本发明公开了一种汉语高危词识别方法和系统。所述方法包括:建立第一列表和第二列表;第二列表中保存高危词的全拼音串;第一列表中保存高危词的首字拼音和词长信息之间的对应关系;然后对于汉语句子S逐字进行解析,对于S中的每个当前汉字:将该当前汉字转换成拼音,根据该拼音去查询第一列表,判断第一列表中是否存在同样的拼音,是则根据该存在的同样的拼音所对应的词长信息对S进行截取,得到C,将C转换成全拼音串后,查询第二列表,判断第二列表中是否存在C的全拼音串,是则确定S中存在高危词。本发明的技术方案能够从给定的句子中快速查找出高危词。
申请公布号 CN102253983A 申请公布日期 2011.11.23
申请号 CN201110176587.8 申请日期 2011.06.28
申请人 北京新媒传信科技有限公司 发明人 张雁飞
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市隆安律师事务所 11323 代理人 权鲜枝
主权项 一种汉语高危词识别方法,其特征在于,建立第一列表和第二列表;第二列表中保存了所搜集的所有高危词的全拼音串;第一列表中保存首字拼音和词长信息之间的对应关系,其中首字拼音是高危词的首字拼音,词长信息是读音与该首字拼音相同的各高危词的词长信息;则对于汉语句子S进行高危词识别的过程包括:步骤一,将S的当前汉字转换成拼音;其中,初始时S的当前汉字为S中的从左边数第一个汉字,之后,每次向右前进一个汉字,作为S的当前汉字,直到S的最右边的汉字;步骤二,根据步骤一中转换得到拼音去查询第一列表,判断第一列表中是否存在同样的拼音,是则执行步骤三,否则返回步骤一;步骤三,根据该存在的同样的拼音所对应的词长信息对S进行截取,得到C;步骤四,将C转换成全拼音串后,查询第二列表,判断第二列表中是否存在C的全拼音串,是则确定S中存在高危词,退出流程,否则,返回步骤一。
地址 100089 北京市海淀区万泉庄路28号万柳新贵大厦A座5层