一种自适应图像文本信息提取方法,申请号CN200810115615.3-传众专利搜索

发明名称	一种自适应图像文本信息提取方法
摘要	本发明一种自适应图像文本信息提取方法，涉及图像中的文本信息提取技术，其包括步骤：1)图像预处理；2)图像背景复杂度分析；3)文本初检测；4)文本验证；5)文本抽取；6)文本信息输出或显示。本发明方法，通过计算图像背景复杂度，对不同复杂度背景的图像采用不同的文本检测方法，减少了采用单一文本检测方法中的漏检，误检现象，提高了文本提取系统的整体性能。本发明方法中图像背景复杂度的计算方法简单，有效，不仅能够检测出不同背景复杂度的图像中的文字信息，而且检测出的文本信息不受字体，大小及语言的影响，具有很强的通用性。
申请公布号	CN101615252A	申请公布日期	2009.12.30
申请号	CN200810115615.3	申请日期	2008.06.25
申请人	中国科学院自动化研究所	发明人	李敏花;肖柏华;王春恒;戴汝为
分类号	G06K9/20(2006.01)I;G06K9/46(2006.01)I	主分类号	G06K9/20(2006.01)I
代理机构	中科专利商标代理有限责任公司	代理人	周国城
主权项	1、一种自适应图像文本信息提取方法，其特征在于，包括步骤：1)图像预处理；2)图像背景复杂度分析；3)文本初检测；4)文本验证；5)文本抽取；6)文本信息输出或显示；其具体步骤为：A)首先，从选定的路径中读取图像，并将彩色图像转换为灰色图像；B)根据灰色图像所有像素点的灰度变化密度，计算出整幅图像的背景复杂度，计算方法为：某一像素点P0的灰度强度S′按照下式计算：S′＝MAX{\|P1-P8\|，\|P2-P7\|，\|P3-P6\|，\|P4-P5\|} (1)<maths id="math0001" num="0001" ><math><![CDATA[ <mrow> <mi>S</mi> <mo>=</mo> <mfenced open='{' close=''> <mtable> <mtr> <mtd> <mfrac> <msup> <mi>S</mi> <mo>′</mo> </msup> <mn>255</mn> </mfrac> <mo>,</mo> </mtd> <mtd> <mi>S</mi> <mo>&GreaterEqual;</mo> <mi>T</mi> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> <mo>,</mo> </mtd> <mtd> <mi>Otherwise</mi> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>]]></math></maths>则图像的背景复杂度为：<maths id="math0002" num="0002" ><math><![CDATA[ <mrow> <mi>D</mi> <mo>=</mo> <mfrac> <mrow> <munder> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </munder> <mi>S</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mi>n</mi> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>]]></math></maths>其中，S′为图像中像素点P0的灰度强度，S按照(2)式将S′归一化为(0，1)范围内的数，T为归一化的阈值，D为图像的背景复杂度值，n为图像中的像素数目，P1～P8为P0的八邻域；按照计算的D值对图像背景复杂度进行分级；C)根据图像复杂度级别决定采用何种文字边缘检测方法，对于复杂度较低的图像，采用较简单的边缘文本检测方法，对于复杂度较高的图像，采用较复杂的边缘文本检测方法；D)根据采用的文本检测方法，找出图像中的候选文本区域，对文本信息区域进行初始定位；E)对从图像中找到的候选文本区域，抽取相关特征进行文本区域验证，通过验证的候选文本区域，即判定为文本块，将在后续的步骤中抽取文本信息，未通过验证的候选文本区域，即判定为非文本区域，将其从候选文本中去除；F)对确定的文本块，去除文本块中的背景，将所有文本信息抽取出来；G)将图像中抽取出来的所有文本信息输出给下一级处理，或在计算机上显示出来。
地址	100080北京市海淀区中关村东路95号