发明名称 大规模关键词匹配的方法和系统
摘要 本发明提供针对大规模关键词匹配的方法和系统。按照所提供的方法和系统,首先将给定关键词集合进行规范化,在规范化的关键词集合(也可以直接在原始关键词集合上)上求解一个最优分组和组内最佳匹配方法,这个过程可以使用两种机制:一是使用动态规划的方法计算出一个最优分组,依照此结果将给定的关键词集合划分成若干个组;然后,针对每一个组,通过训练的方式得到一个最佳的匹配方法;一是通过训练建立一个边上带权重的有向图,求解此图的最短路径,得到最优分组和组内最佳匹配方法;然后对所有的组,使用训练的结果依次构造扫描自动机,形成一个扫描自动机序列,使输入的待扫描文本依次通过,得到最终的扫描结果。
申请公布号 CN1648901A 申请公布日期 2005.08.03
申请号 CN200510007089.5 申请日期 2005.02.03
申请人 中国科学院计算技术研究所 发明人 刘萍;谭建龙;程学旗
分类号 G06F17/30 主分类号 G06F17/30
代理机构 中科专利商标代理有限责任公司 代理人 段成云
主权项 1.一种大规模关键词匹配的方法,包括步骤:对关键词集合进行规范化;对关键词集合进行最优分组和寻找最佳匹配方法;建立一组扫描自动机;扫描,并返回结果。
地址 100080北京市中关村科学院南路6号