发明名称 海量文件型数据的索引生成方法及装置和搜索系统
摘要 本发明公开了一种文件型数据的索引生成方法,用于从文件型数据仓库生成供搜索的索引仓库,该方法包括:目录遍历步骤,遍历所述文件型数据仓库;数据格式解析步骤,对由在所述目录遍历步骤中遍历的各个文件型数据进行数据格式的解析;元数据抽取步骤,从由已完成数据格式解析的所述各个文件型数据中抽取作为信息内容的元数据;元数据快照生成步骤,由所述元数据生成元数据快照;路径转换步骤,将所述元数据快照的本地路径转换为对外服务的网络路径;索引生成步骤,将所述元数据快照生成索引。由此,能够对跨节点的海量文件型科学数据,直接、快速地挖掘包含其中的大量描述信息,并将这些描述信息自动索引以供搜索。
申请公布号 CN101344881A 申请公布日期 2009.01.14
申请号 CN200710118527.4 申请日期 2007.07.09
申请人 中国科学院大气物理研究所 发明人 马晓光;周广庆;李磊
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 中科专利商标代理有限责任公司 代理人 李贵亮
主权项 1.一种文件型数据的索引生成方法,用于从文件型数据仓库生成供搜索的索引仓库,其特征在于,包括:目录遍历步骤,通过爬虫程序,遍历所述文件型数据仓库;数据格式解析步骤,利用数据格式解析器,对由在所述目录遍历步骤中遍历的所述文件型数据仓库中的各个文件型数据进行数据格式的解析;元数据抽取步骤,利用元数据抽取器,从由已完成数据格式解析的所述各个文件型数据中抽取作为信息内容的元数据;元数据快照生成步骤,利用元数据快照生成器,由所述元数据生成元数据快照;路径转换步骤,利用路径转换器,将所述元数据快照中的文件型数据的本地路径转换为对外服务的网络路径;索引生成步骤,利用索引生成器,通过索引程序对已路径转换的所述元数据快照生成索引,并按照一定的命名方式存储于所述索引仓库中。
地址 100029北京市朝阳区德外大街祁家豁子华严里40号
您可能感兴趣的专利