发明名称 | 大规模关键词匹配的方法和系统 | ||
摘要 | 本发明提供针对大规模关键词匹配的方法和系统。按照所提供的方法和系统,首先将给定关键词集合进行规范化,在规范化的关键词集合(也可以直接在原始关键词集合上)上求解一个最优分组和组内最佳匹配方法,这个过程可以使用两种机制:一是使用动态规划的方法计算出一个最优分组,依照此结果将给定的关键词集合划分成若干个组;然后,针对每一个组,通过训练的方式得到一个最佳的匹配方法;一是通过训练建立一个边上带权重的有向图,求解此图的最短路径,得到最优分组和组内最佳匹配方法;然后对所有的组,使用训练的结果依次构造扫描自动机,形成一个扫描自动机序列,使输入的待扫描文本依次通过,得到最终的扫描结果。 | ||
申请公布号 | CN1648901A | 申请公布日期 | 2005.08.03 |
申请号 | CN200510007089.5 | 申请日期 | 2005.02.03 |
申请人 | 中国科学院计算技术研究所 | 发明人 | 刘萍;谭建龙;程学旗 |
分类号 | G06F17/30 | 主分类号 | G06F17/30 |
代理机构 | 中科专利商标代理有限责任公司 | 代理人 | 段成云 |
主权项 | 1.一种大规模关键词匹配的方法,包括步骤:对关键词集合进行规范化;对关键词集合进行最优分组和寻找最佳匹配方法;建立一组扫描自动机;扫描,并返回结果。 | ||
地址 | 100080北京市中关村科学院南路6号 |