主权项 |
一种文本过滤方法,其特征在于,包括:预先在文本过滤系统中定义语义关键词,所述语义关键词,至少由基本关键词、逻辑关系符和过滤条件构成,所述基本关键词,以字符为单位,按照树形结构存储于文本过滤系统中;其中,基本关键词的首字符为根节点、末字符为叶子节点,具有相同首字符的基本关键词共用同一个根节点;所述文本过滤系统获得输入文本后,根据预先定义的语义关键词,在所述输入文本中查找构成所述语义关键词的基本关键词,包括步骤:获取所述输入文本中的一个字符c1;以c1为当前字符、以所述树形结构的根节点为当前节点,将当前字符与当前节点进行匹配;如果当前字符与当前节点匹配成功,且当前节点具有子节点,则将当前字符的后一字符,与当前节点的子节点进行匹配;如果当前字符与当前节点匹配失败,且当前节点具有兄弟节点,则将当前字符与当前节点的兄弟节点进行匹配,重复本步骤;连接当前节点与根节点得到匹配路径,并根据所述匹配路径上匹配成功的叶子节点确定所查找到的基本关键词;如果在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容,则进一步对查找到的文本内容进行语义匹配;所述语义匹配包括:根据构成所述语义关键词的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配,并且包括将所述输入文本的属性与所述过滤条件进行匹配;如果所述语义匹配成功,则对匹配成功的文本内容进行过滤处理。 |