发明名称 统计资料的数据自动提取方法及装置
摘要 本发明系为一种统计资料的数据自动提取方法及装置,其中揭露了一种可以自原始之统计资料中,根据指定之提取条件和提取方式,自动对原始之统计资料进行全文或是关键资料的提取,藉此加快数据库(Data-Base)的更新进程,并且提高更新效率的技术;根据本发明所揭露的技术,包括有:建立一可供选用的关键讯息资料库,其中包含有许多彼此关联的关键讯息,作为自动提取数据时的提取条件;提供一自动提取操作界面,可供使用者自关键讯息资料库中挑选出提取资讯时所需的提取条件,或显示相应的讯息;以及,提供一数据自动匹配提取模组,用以取得原始的统计资料,并且根据所挑选的提取条件,对原始的统计资料进行自动匹配和提取,藉此取代大量的人工操作过程,而且快速地获得所需之关键资料或相关的讯息。
申请公布号 TW446894 申请公布日期 2001.07.21
申请号 TW087121163 申请日期 1998.12.18
申请人 英业达股份有限公司 发明人 邱全成;谭炽南;顾跃挺;杨桂华
分类号 G06F17/40 主分类号 G06F17/40
代理机构 代理人 许世正 台北巿忠孝东路五段四一○号四楼
主权项 1.一种统计资料的数据自动提取方法,用以将来自于某一数据库之原始统计资料中,自动提取指定之数据,包括有:建立一关键讯息资料库,其中包含有许多彼此关联的关键讯息,作为自动提取该原始统计资料中之指定数据时的提取条件;提供一自动提取操作界面,可供使用者将自动提取数据的条件输入该关键讯息资料库或是自该关键讯息资料库中指定,以及显示相应的讯息,以便于使用者的操作;以及提供一数据自动匹配提取模组,用以取得该原始的统计资料,并且根据该关键讯息资料库中的该提取条件,对该原始的计资料进行自动匹配,以及提取符合该提取条件的匹配结果;藉此取代大量的人工操作过程,而且快速地获得所需之关键资料或相关的讯息。2.如申请专利范围第1项所述之统计资料的数据自动提取方法,其中该关键讯息资料库至少包括有:一关键字词资料表,用来指定在该原始统计资料中所欲提取的关键字词及其资料类型。3.如申请专利范围第2项所述之统计资料的数据自动提取方法,其中该关键讯息资料库至少还包括有:一选项资料表,用于指定该关键字词资料表中的该关键字词,在该原始统计资料中可能出现的相关或同位的描述数据,且该描述数据与该关键字词资料表中的该关键字词为多对一的关系。4.如申请专利范围第2项所述之统计资料的数据自动提取方法,其中该关键讯息资料库至少还包括有:一单位资料表,用以指定该关键字词资料表之中该资料类型为数字型者,在该原始统计资料中可能出现的单位字词,以及该单位字词对应于某一统一单位的换算値,其中该单位字词与该关键字词资料表中的该关键字词为多对一的关系。5.如申请专利范围第2项所述之统计资料的数据自动提取方法,其中该关键讯息资料库至少还包括有:一范围资料表,用以指定该关键字词资料表之该资料类型为数字者的限制范围,该限制范围与该关键字词资料表中的该关键字词为一对一的关系。6.如申请专利范围第1项所述之统计资料的数据自动提取方法,其中该数据自动匹配提取模组包括有:一原始统计资料获取程序,自某一指定位置之数据库中获取该原始的统计资料;一关键字词匹配程序,根据该关键讯息资料库所记录的数据提取条件,在该原始的统计资料中寻找符合该提取条件的指定数据,并且返回该指定数据的位置;一句子切割程序,根据该关键字词匹配程序所返回的该指定数据位置,于该原始统计资料中提取包含有该指定数据的句子,并返回该句子;一选项数据匹配程序,根据该关键字词匹配程序返回的该指定数据,在该关键讯息资料库中对数个可选择之相关或同位的选项数据进行匹配,并返回匹配的该选项数据;一单位确认匹配程序,根据该关键字词匹配程序返回之该指定数据的一单位字词,在该句子切割程序所返回之该句子中进行匹配,并且返回符合的单位字词与换算的数据;以及一关键字词与资料类型的检测程序,系为一数据验证程序,将该单位确认匹配程序返回的该数据与该关键讯息资料库所指定的数据范围进行比对,并且返回符合的数据。7.如申请专利范围第1项所述之统计资料的数据自动提取方法,其中该数据自动匹配提取模组系用以执行:1.从某一指定位置之数据库中获取该原始统计资料;2.从预设的该关键讯息资料库中取得指定提取的关键字词,及其资料类型的定义;3.将得到的该原始统计资料与该关键字词进行比对,如果该原始统计资料中包含有相同的该关键字词,则跳至步骤5,如果该原始统计资料中不包含该关键字词,则执行下一步骤;4.从该关键讯息资料库中取得下一个指定提取的关键字词,然后返回步骤2,如果无下一个指定的关键字词,则返回空讯息,并结束数据自动提取作业;5.根据取得之该关键字词存在于该原始统计资料中的位置,自该原始统计资料中取得包含该关键字词的句子,并返回该句子;6.根据该关键字词所属的资料类型,在该句子中搜索符合该资料类型的数据,并返符合的该数据;7.判断步骤6所返回的该数据,其所属的资料类型若为数字时,进行下一步骤,若为文字时,跳至步骤14;8.从返回的该句子中取得符合该关键字词所关联的单位字词,并返回该单位字词;9.从该关键讯息资料库中获得该关键字词所关联之单位字词条件;10.将步骤8所返回的该单位字词与步骤9的该单位字词条件进行匹配,若匹配成则返回该单位字词之数字数据并进行下一步骤,若无一匹配成功,则返回步骤4;11.从该关键讯息资料库中获得该关键字词所关联的范围値;12.判断该数字数据是否超出该范围値,若是超出该范围値则返回至步骤4,若在范围値之内则返回该数字数据;13.根据该关键讯息资料库换算条件,将返回的该数字数据进行换算,然后返回换算后的数字数据;14.根据步骤3所找到的该关键字,在该关键讯息资料库中对数个可选择之相关或同位的选项数据进行匹配,并返回匹配的该选项数据;15.判断该关键讯息资料中的所有关键讯息是否都已进行匹配,若为否则返回步骤4,若为是则结束数据自动提取作业。8.如申请专利范围第1项所述之统计资料的数据自动提取方法,其中该数据库系为网际网路中之某一网站。9.一种统计资料的数据自动提取装置,包括有:一电脑,用以自某一指定位置之数据库中取得一原始统计资料,对获得的该原始资料进行自动匹配和提取;以及储存并显返回之匹配及提取结果;一可供电脑存取之记录媒体,其中储存有:一关键讯息资料库,其中包含有许多彼此关联的关键讯息,作为自动提取数据时的数据提取条件;一数据自动匹配提取模组,用以命令该电脑取得该原始的统计资料,并且根据该数据提取条件,对该原始的统计资料进行自动匹配和提取作业;以及一提取界面的图形资料,可以透过显示单元显示相应的操作讯息与电脑处理的结果;一数据机,系为该电脑与该数据库进行通讯的媒介;一输入单元,系为提供操作者操作者的工具;以及一显示单元,用以显示该电脑的处理结果,或是相应的操作讯息。10.如申请专利范围第9项所述之统计资料的数据自动提取装置,其中该输入单元可为键盘,滑鼠,触控式萤幕,光笔或是其他功能类似之一者。11.如申请专利范围第9项所述之统计资料的数据自动提取装置,其中该显示单元可为萤幕,液晶萤幕,触控式萤幕或是其他功能类似之一者。12.如申请专利范围第9项所述之统计资料的数据自动提取方法,其中该某一指定位置之数据库系为网际网路中之某一网站。图式简单说明:第一图系为本发明之装置的功能方块图。第二图系为实现本发明之方法的步骤流程图。第三图系为本发明之关键讯息资料库的资料结构关联图。第四图系为本发明之数据自动匹配提取模组的功能方块图。第五图系为本发明实施数据自动提取的详细步骤流程图。
地址 台北巿士林区后港街六十六号