发明名称 基于文件映射图之中文资讯撷取系统及方法
摘要 一种基于文件映射图之中文资讯撷取系统及方法,使用者可透过浏览与点选地图的方式,取得所需的文件资讯;其中,中文资讯撷取系统分为文件处理程序及查询处理程序两部分,其中,文件处理程序包括一文件前置处理程式,系针对输入的所有文件档案,抽取并筛选出文字特征后,计算每份文件的特征向量,存入文件索引资料库;一文件映射图生成程式,系利用类神经网路,参照每份文件的特征向量,计算文件映射图座标点的向量后,再标定每份文件的所属座标点,产生文件映射图;一文件摘要抽取程式,系计算并抽取出每份文件的代表词句;一地图视觉化转换程式,系将文件映射图生成程式产生的文件映射图,转换为方便使用者浏览的二维地图,并同时划分区块及标注提示词句。查询处理程序包括一目标区域界定程式,系依据使用者选定的座标,计算出包含该座标点的概念区块;一地图缩放程式,系用以缩小或放大显示指定的概念区块。一文件资讯撷取程式,系从文件索引资料库中,撷取出所需的文件实体档案路径及摘要资讯。
申请公布号 TWI270793 申请公布日期 2007.01.11
申请号 TW092126575 申请日期 2003.09.26
申请人 金扬资讯科技股份有限公司 发明人 陈贻浚;张凤玲;郑华森
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 代理人 陈允恭 台北市大安区和平东路1段228号
主权项 1.一种基于文件映射图之中文资讯撷取系统,使用 者藉由一萤幕浏览地图及一滑鼠点选的方式,透过 该中文资讯撷取系统,取得所需的文件资讯,该中 文资讯撷取系统包括: 一文件前置处理程式,系处理原始电子文件档案, 采用马可夫及隐藏式模型(Hidden Markov Models)方法, 抽取档案中文字部分并筛选出文字特征后,计算每 份文件的特征向量; 一文件映射图生成程式,系利用自我组织映射图类 神经网路(SOM, Self-Organizing Map Neural Network),参照每 份文件的特征向量,计算文件映射图座标点的向量 后,再标定每份文件的所属座标点,产生一文件映 射图; 一文件摘要抽取程式,系参照每份文件的特征向量 与输入文件的纯文字内容,使用统计的方法,计算 并抽取出输入文件档案中的代表字词与摘要句子; 一文件索引资料库,与文件前置处理程式、文件摘 要抽取程式及文件映射图生成程式相连接,存放文 件前置处理程式输出的纯文字内容及文件特征向 量、文件映射图生成程式计算出的地图座标向量 及每份文件的所属座标点、文件摘要抽取程式抽 取出文件代表词句与文件实体档案路径; 一地图视觉化转换程式,与文件映射图生成程式连 接,将文件映射图生成程式输出的文件映射图与地 图影像资料,使用超连结的技术,建立文件与地图 影像座标关系连结,呈现出方便使用者浏览的二维 地图,并同时根据文件映射图划分区块及标注提示 词句; 一目标区域界定程式,系依据使用者于浏览地图时 选定的座标点,计算出包含该座标点的概念区块, 决定目标区域:以使用者选定的座标点为圆心向外 扩展若干长度的区域即为概念区块亦为目标区域; 一地图缩放程式,与目标区域界定程式连接,用以 缩小或放大显示指定的概念区块;以及 一文件资讯撷取程式,系从文件索引资料库中,撷 取出所需的文件实体档案路径及摘要资讯。 2.如申请专利范围第1项所述之基于文件映射图之 中文资讯撷取系统,其中该系统更包括: 一输入介面,与目标区域界定程式及地图缩放程式 相连接,运用图形化的使用者介面(GUI)的方式,将二 维地图以图形化方式呈现予使用者,提供使用者以 浏览地图及游标点选的方式,输入地图上的座标位 置; 一输出介面,与地图缩放程式及文件资讯撷取程式 连接,采用图形化的使用者介面(GUI)的方式,用以呈 现缩放后的地图,或将自文件索引资料库中找出之 文件资讯,传送给使用者;以及 一地图资料库,系与地图视觉化转换程式连接,用 以存放二维地图影像及超连结座标等资讯,可使用 关联资料库来完成地图资料库的建置。 3.一种基于文件映射图之中文资讯撷取方法,关于 此系 统的操作及运作方式,系有关于使用者藉由 一萤幕浏览地图及一滑鼠点选的方式,透过此资讯 撷取系统,得到所需的文件资讯,该资讯撷取系统 使用之步骤包括: 使用者浏览地图及图上的标注文字; 使用者点选需要进一步放大检视的概念区块; 取得使用者点选的座标之后,撷取出对应至该座标 点的概念区块,并将其放大传送给使用者;以及 使用者可点选一文件连结,撷取出文件实体档案及 摘要资讯或回到上一层地图浏览画面。 4.一种基于文件映射图之中文资讯撷取系统,系有 关于文件前置处理元件,自电子文件档案中抽取文 字部分,并计算出文字部份的特征向量及权重,权 重采用机率统计的方法求出,特征向量的内容是依 据文字权重的高低来判定该文字是否能代表文件 的特征,该文件前置处理元件系一文件前置处理程 式。 5.如申请专利范围第4项所述之基于文件映射图之 中文资讯撷取系统,系包括文件前置处理元件,其 中含: 一档案内容文字抽取程式,系抽取档案中的文字部 份,存入文件索引资料库; 一文字特征选取及评分程式,系筛选出文字内容中 之关键文字特征,并计算关键文字的权重;以及 一文字编码程式,系参照档案内容文字抽取程式及 文字特征选取及评分程式的输出结果,计算出每份 文件的特征向量,其中特征向量的取得,取决于该 篇文章中关键文字权重的高低。 图式简单说明: 第1图绘示的是一般传统资讯撷取系统之一示意图 ; 第2图绘示的是本发明之一示意图; 第3图绘示的是本发明之一流程图;以及 第4图绘示的是本发明之一示意图。
地址 台北市松山区民生东路4段54号7楼702室