一种汉语高危词识别方法和系统,申请号CN201110176587.8-传众专利搜索

发明名称	一种汉语高危词识别方法和系统
摘要	本发明公开了一种汉语高危词识别方法和系统。所述方法包括：建立第一列表和第二列表；第二列表中保存高危词的全拼音串；第一列表中保存高危词的首字拼音和词长信息之间的对应关系；然后对于汉语句子S逐字进行解析，对于S中的每个当前汉字：将该当前汉字转换成拼音，根据该拼音去查询第一列表，判断第一列表中是否存在同样的拼音，是则根据该存在的同样的拼音所对应的词长信息对S进行截取，得到C，将C转换成全拼音串后，查询第二列表，判断第二列表中是否存在C的全拼音串，是则确定S中存在高危词。本发明的技术方案能够从给定的句子中快速查找出高危词。
申请公布号	CN102253983A	申请公布日期	2011.11.23
申请号	CN201110176587.8	申请日期	2011.06.28
申请人	北京新媒传信科技有限公司	发明人	张雁飞
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京市隆安律师事务所 11323	代理人	权鲜枝
主权项	一种汉语高危词识别方法，其特征在于，建立第一列表和第二列表；第二列表中保存了所搜集的所有高危词的全拼音串；第一列表中保存首字拼音和词长信息之间的对应关系，其中首字拼音是高危词的首字拼音，词长信息是读音与该首字拼音相同的各高危词的词长信息；则对于汉语句子S进行高危词识别的过程包括：步骤一，将S的当前汉字转换成拼音；其中，初始时S的当前汉字为S中的从左边数第一个汉字，之后，每次向右前进一个汉字，作为S的当前汉字，直到S的最右边的汉字；步骤二，根据步骤一中转换得到拼音去查询第一列表，判断第一列表中是否存在同样的拼音，是则执行步骤三，否则返回步骤一；步骤三，根据该存在的同样的拼音所对应的词长信息对S进行截取，得到C；步骤四，将C转换成全拼音串后，查询第二列表，判断第二列表中是否存在C的全拼音串，是则确定S中存在高危词，退出流程，否则，返回步骤一。
地址	100089 北京市海淀区万泉庄路28号万柳新贵大厦A座5层