发明名称 丛集系统
摘要 一种对文件影像执行丛集处理之系统及方法,文件中的提取标记之属性与存在丛集的属性作比对,当标记的属性无法与存在丛集的属性相符,则将标记视为新丛集且新增至存在丛集中。一丛集属性为x尺寸及y尺寸,系为存在丛集的宽度及高度。丛集的另一属性为墨水尺寸,系为一丛集中黑像素与像素总量之比值。另一属性为标记及/或丛集点阵图的像素尺寸缩小版本。利用上述属性以识别不相符丛集,并且降低执行位元比对的数量。
申请公布号 TWI223183 申请公布日期 2004.11.01
申请号 TW092106231 申请日期 2003.03.20
申请人 微软公司 发明人 帕崔斯Y. 西马德;恩里克S. 马法;艾林L. 雷萧
分类号 G06F19/00 主分类号 G06F19/00
代理机构 代理人 蔡坤财 台北市中山区松江路一四八号十二楼
主权项 1.一种丛集系统,至少包含:一标记提取装置,以于一文件中提取一标记;一相符元件,系对该标记之至少一属性与复数个相符的存在丛集之相符属性进行比对,以识别该些相符的存在丛集;一二维表,依据区域(box)尺寸加以储存该存在丛集;以及一相符符号元件,系对该标记与该些相符的存在丛集进行比对,并识别一相符丛集。2.如申请专利范围第1项所述之丛集系统,更包含一资料库,以储存该存在丛集。3.如申请专利范围第1项所述之丛集系统,更包含该存在丛集之相符属性之一表。4.如申请专利范围第2项所述之丛集系统,其中该资料库至少包含一区域性资料库及一全域性资料库,该区域性资料库至少包含自该文件的目前页面加入之存在丛集,以及该全域性资料库至少包含自该文件之先前页面加入之存在丛集。5.如申请专利范围第1项所述之丛集系统,其中该标记提取装置系操作以自该文件中寻找该标记并提取该标记。6.如申请专利范围第1项所述之丛集系统,其中该相符属性至少包含用于该存在丛集之x尺寸及y尺寸。7.如申请专利范围第1项所述之丛集系统,其中该相符属性至少包含用于该存在丛集之墨水尺寸(inksizes)。8.如申请专利范围第1项所述之丛集系统,其中该相符属性至少包含用于该存在丛集之尺寸调整影像(resized image)。9.如申请专利范围第6项所述之丛集系统,其中该标记之该至少一相符属性系为x尺寸及y尺寸。10.如申请专利范围第7项所述之丛集系统,其中该标记之该至少一相符属性系为墨水尺寸。11.如申请专利范围第8项所述之丛集系统,其中该标记之该至少一相符属性系为尺寸调整的影像。12.如申请专利范围第1项所述之丛集系统,其中对该相符元件系操作以计算该些属性之一可接受范围。13.如申请专利范围第1项所述之丛集系统,其中该相符元件在该标记与该存在丛集不相符时,系进一步操作以加入该标记作为一新丛集。14.如申请专利范围第1项所述之丛集系统,其中该相符符号元件系进一步操作,以将该标记加入至该最相符丛集之相符标记的一组合中。15.如申请专利范围第13项所述之丛集系统,更包含一资料库,该资料库系操作以储存该存在丛集,并依据该存在丛集的出现频率加以分类该存在丛集。16.一种使用申请专利范围第1项所述之丛集系统之影印机。17.一种使用申请专利范围第1项所述之丛集系统之传真机。18.一种使用申请专利范围第1项所述之丛集系统之数位相机。19.一种使用申请专利范围第1项所述之丛集系统之影像编码系统。20.一种丛集化之方法,该方法至少包含下列步骤:于一文件中寻找一标记;对该标记的第一属性与存在丛集的第一属性进行比对,以识别相符丛集及不相符丛集;在该第一属性之一相符丛集中,对该标记的点阵图与该些相符丛集的点阵图进行比对,以获致该些相符丛集之一相符丛集;以及在该第一属性之一不相符丛集以及该点阵图之一不相符丛集中,将该标记视为新丛集并加入至该些存在丛集。21.如申请专利范围第20项所述之方法,其中欲进行比较之该第一属性系包含由x尺寸、y尺寸、墨水尺寸及调整尺寸标记影像所组成之群组之至少一者。22.如申请专利范围第20项所述之方法,更包含自该标记的该点阵图中产生一调整尺寸标记影像。23.如申请专利范围第22项所述之方法,其中该调整尺寸标记影像系藉由将该标记的该点阵图分成9个区域,并且使用该9个区域之每一区域中之多数像素加以转变为3乘以3之9像素之调整尺寸标记影像之对应像素而产生。24.如申请专利范围第20项所述之方法,更包含计算该标记的热点。25.如申请专利范围第20项所述之方法,更包含对该标记的第二属性与存在丛集的第二属性进行比对,以识别相符丛集及不相符丛集。26.如申请专利范围第25项所述之方法,更包含对该标记的第三属性与存在丛集的第三属性进行比对,以识别相符丛集及不相符丛集。27.如申请专利范围第20项所述之方法,其中对该标记的点阵图与该些相符丛集的点阵图进行比对的步骤中,至少包含计算该标记的重心及该丛集的重心,计算该相符丛集与该标记之间的互斥或(xor)距离,并且在该标记与该最小之互斥或(xor)距离位于一可接受范围内,加以选择具有最小的该互斥或(xor)距离之最相符丛集。28.如申请专利范围第20项所述之方法,其中经常出现的该相符丛集系维持于全域性资料库中,而较少出现的丛集系维持于区域性资料库中。29.一种文件编码系统,至少包含:一罩幕分离装置,系操作以自一文件影像中产生一二位元罩幕,该二位元罩幕包含文字资讯;一背景前景区段装置,系操作以自该文件影像中根据该二位元罩幕加以分割一背景影像及一前景影像;以及一丛集系统,系操作以于该罩幕中,以有效率的计算加以识别丛集。30.一种资料封包,用于至少两台电脑处理器之间的传输,该资料封包至少包含:一资料场域,系至少包含关联于丛集属性之资讯,该丛集属性系有效地与一标记之相似属性进行比对,以识别不相符丛集,该不相符丛集系指示该标记为一新丛集并且避免对该丛集与该标记进行位元比对。31.一种电脑可读取媒体,用以储存电脑可执行元件,可操作执行丛集化方法,该电脑可读取媒体至少包含:一用于寻找标记的元件;一元件,系用以对该标记的第一属性与存在丛集的第一属性进行比对,以识别相符丛集及不相符丛集;在该第一属性之一相符丛集中,一元件系用以对该标记的点阵图与该些相符丛集的点阵图进行比对,以找出该些相符丛集中之一最相符丛集;以及在该第一属性之一不相符丛集及该点阵图的一不相符丛集中,一元件系将该标记视为新丛集并加入至该些存在丛集。32.一种电脑可读取媒体,用以储存电脑可执行元件,可操作执行丛集化方法,该电脑可读取媒体至少包含:用于一文件之至少一页面之每一页面;一用于寻找至少一标记的元件;一元件,用以对该标记的第一属性与存在丛集的第一属性进行比对,以识别相符丛集及不相符丛集;在该第一属性的一相符丛集中,一元件系用以对该至少一标记的点阵图与该些相符丛集的点阵图进行比对,以找出该些相符丛集中之一最相符丛集;以及在该第一属性之一不相符丛集及该点阵图之一不相符丛集中,一元件系用以将该至少一标记视为新丛集并加入至该些存在丛集;及用以更新一全域性资料库之一元件。图式简单说明:第1图绘示依据本发明一实施态样之丛集系统方块图;第2图绘示依据本发明一实施态样之示范标记;第3图绘示依据本发明之4个连接属性;第4图绘示依据本发明之8个连接属性;第5绘示依据本发明一实施态样之示范组合标记;第6图绘示依据本发明一实施态样之丛集系统方块图;第7图绘示依据本发明一实施态样之二维对照表方块图;第8图绘示依据本发明一实施态样之二维对照表进入点的方块图;第9图绘示依据本发明一实施态样之示范丛集;第10图绘示依据本发明一实施态样之示范错误图;第11图绘示依据本发明一实施态样之执行丛集的方法之流程图;第12图绘示依据本发明一实施态样中使用丛集的影像编码系统之方块图;第13图绘示依据本发明之示范的操作环境;以及第14图绘示依据本发明之示范通讯环境之方块图。
地址 美国