发明名称 一种非结构化格式数据搜索方法
摘要 本发明涉及一种数据搜索方法,主要应用在互联网内容识别,企业内部局域网文本分类等。本发明所说的非结构化格式数据搜索方法,其步骤是:1)收集不同的文本类型进行分类,并根据不同的类型建立相应的模式库;2)将被搜索文件进行分解,分解成若干关键字;3)将未知文章中的关键字和模式库进行模式匹配;4)当匹配程度达到一定值,就可以将被搜索文章进行分类。本发明的方法可以对文本中的单词或词语出现的频率来识别不同文本,当用户输入关键字后,返回的是和关键字有关而不是只符合关键字的文本内容,这种方法极大地提高了用户搜索的效率和准确率。
申请公布号 CN101425083A 申请公布日期 2009.05.06
申请号 CN200810201915.3 申请日期 2008.10.30
申请人 上海第二工业大学 发明人 陈建
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海东创专利代理事务所 代理人 宁芝华
主权项 1. 一种非结构化格式数据搜索方法,包括如下步骤:1)、收集不同的文本类型进行分类,并根据不同的类型建立相应的模式库;2)、将被搜索文件进行分解,分解成若干关键字;3)、将未知文章中的关键字和模式库进行模式匹配;4)、当匹配程度达到一定值,就可以将被搜索文章进行分类。
地址 201209上海市浦东新区金海路2360号