发明名称 文本过滤方法及文本过滤系统
摘要
申请公布号 TWI486796 申请公布日期 2015.06.01
申请号 TW099113502 申请日期 2010.04.28
申请人 阿里巴巴集团控股有限公司 发明人 温新赐;叶长程
分类号 G06F17/28;G06F17/30 主分类号 G06F17/28
代理机构 代理人 林志刚 台北市中山区南京东路2段125号7楼
主权项 一种文本过滤方法,其特征在于,包括:预先在文本过滤系统中定义语义关键字,该语义关键字,至少由基本关键字和逻辑关系符构成,该基本关键字,以字元为单位,按照树形结构储存于文本过滤系统中,其中,基本关键字的首字元为根节点、末字元为叶子节点,具有相同首字元的基本关键字共用同一个根节点;该文本过滤系统获得输入文本后,根据预先定义的语义关键字,在该输入文本中查找构成该语义关键字的基本关键字,其包括以下步骤:获取该输入文本中的一个字元c1;以c1为当前字元、以该树形结构的根节点为当前节点,将当前字元与当前节点进行匹配;如果当前字元与当前节点匹配成功,且当前节点具有子节点,则将当前字元的后一字元,与当前节点的子节点进行匹配;如果当前字元与当前节点匹配失败,且当前节点具有兄弟节点,则将当前字元与当前节点的兄弟节点进行匹配;重复本步骤;及连接当前节点与根节点得到匹配路径,并根据该匹配路径上匹配成功的叶子节点确定所查找到的基本关键字;如果在该输入文本中查找到与至少一个该基本关键字相匹配的文本内容,则进一步对查找到的文本内容进行语义匹配;该语义匹配包括:根据构成该语义关键字的逻辑关系符,将所查找到的文本内容与该语义关键字进行匹 配;如果该语义匹配成功,则对匹配成功的文本内容进行过滤处理。
地址 香港