发明名称 检索在文件中的文本块的方法
摘要 说明了一种检索在文件中的文本块的方法,特别在要分选的邮政邮件例如大宗邮件中使用。借助参照文本块的表征性特征数据记录应该能够在任意种类的文件中检索或者识别这些参照文本块。在此,作为表征性特征抽取该文本块的与结构有关的特征,并且与一个参照文本块的一个特征数据记录的特征比较,使得在多个文本块之间尽可能进行相似特征的一种简单的识别。与结构有关的特征的第一次抽取例如可以通过把一个文本块拆分为多个行进行,行的高度或者距离在邮件的一个特征数据记录中存储。由此通过比较该特征数据记录能够检查不同文本块的相似性。
申请公布号 CN101263512A 申请公布日期 2008.09.10
申请号 CN200680031129.2 申请日期 2006.08.11
申请人 西门子公司 发明人 K·沃姆
分类号 G06K9/20(2006.01) 主分类号 G06K9/20(2006.01)
代理机构 中国专利代理(香港)有限公司 代理人 卢江;刘春元
主权项 1.检索在文件中的文本块的方法,其特征在于,抽取文本块中的与结构有关的特征并与参照文本块的特征数据记录的特征进行比较。
地址 德国慕尼黑