基于二次分割的银行票据彩色印章的滤除
时间:2025-06-12
由于蒋色印章的存在,传统的印章识别正确率难以满足实际应用需求。针对这一问题,提出一种分割算法,该算法能够有效去除印章。算法首先对票据图像进行预处理,基于印章颜色分析进行图像的第二次分割,判断并自适应增强背景平均灰度值,去除干扰字符,从而提高了票据识别的正确率。实验结果表明,该方法将识别准确率提高约10%,实验证明了方法的有效性,并具有较好的应用前景和商业价值。
Fitering of coor sea on bank notes based on re?segmentation
JI Jing?jing, LOU Zhen
(Department of Computer Science, Nanjing University of Science & Technoogy, Nanjing 210000, China)
0 引 言
银行票据处理是金融商业中非常重要的一项工作,其过程需要充分体现票据处理的效率性、严密性以及安全性。长期以来,金融部门的票据处理过程效率低下,直接影响了国内银行的整体竞争力。票据的自动分割和票据信息提取能够极大地提高批量票据处理的速度及工作效率,减少人为干预。因此,寻求一种有效而实用的票据处理方法变得越来越迫切。银行票据通常都是通过印章来确认票据的有效性,而印章的遮挡是导致票据信息提取质量严重下降的主要原因之一。因此,对票据印章滤除的研究具有很大的实际意义。
目前,银行主要使用的票据印章颜色分为红色和蓝色。票据印章的滤除面临着章印的形状变化,深浅变化和背景位置关系变化等多方面的挑战。票据中印章过多或者用力过重等因素,往往会造成票据中的有效信息与印章粘连,从而导致后续过程中字符切分错误以及字符的识别错误,这大大降低了票据信息提取的有效性。目前,现有的对印章滤除的方法仍然存在一些不足。卜飞宇等提出用二值化方法对银行彩色票据去除印章,主要是通过提取二值图像上字符连通域并对连通域进行合并,得到独立的字符区域。这种方法在票据有严重噪声时,不能有效地找到待识别字符区域。
本文提出的彩色印章的滤除方法能够应用于实际的银行票据字符识别系统。该系统首先对彩色票据图像进行印章颜色判定,针对票据印章颜色的进行第一次粗分割,实现票据背景和印章部分的分离。然后,提取出包含有效字符的印章部分,再对印章和遮挡的有效字符进行第二次分割,从而实现印章的滤除。这种方法在票据有噪声的情况下,也可以有效提取字符,同时对印章覆盖的笔画字符信息情况能够很好保留,从而提高票据的整体识别率。
1 彩色印章的滤除
本文的印章滤除方法主要由印章颜色的判定、前景有效字符的滤波、印章遮挡字符的提取和图像增强四部分组成。图1为含有红色印章的图像。结合引言中描述的银行票据字符识别系统,图2展现了印章滤除方法的系统流程。
图1 红色印章图像
图2 印章去除的系统流程图
首先,对获取的银行彩色票据图像Img分别进行基于红蓝不同颜色分量的全局二值化处理,得到的二值化图像,记之为[Ired],[Ibue]。对二值化图像[Ired],[Ibue]进行颜色特征统计,从而判断出票据中的印章颜色。然后,通过对彩色票据图像Img的前景字符(票据中除印章之外的有效信息)进行滤波,得到仅仅包含印章以及被印章遮挡区域的图像[Ibk],从而实现彩色票据的第一次粗分割。再对彩色印章部分进行第二次的分割,实现印章和遮挡字符的有效分离。最后,对遮挡字符区域进行图像增强,用估计的整个票据平均背景灰度来消除印章干扰,最终合成出印章滤除后的灰度图像[G]。
2 票据印章颜色的判定
2.1 票据印章颜色的过程
分析彩色票据图像上的有效信息(数字和汉字)。被印章遮挡的字符信息需要有效提取并相应的进行增强处理,印章等背景噪声需加以弱化,这样得以提高票据处理系统的识别正确率。首先,需要分析银行票据中的印章颜色(蓝色或红色)。判定过程如下:
(1) 对采集的彩色票据图像Img, 基于颜色分量信息进行分割。设图像上某像素点[(i,j)] ,其红、绿、蓝三基色的分量对应的灰度值分别为[R],[G],[B],记[I=(R+G+B)3]为该像素点的三基色分量的灰度均值。分别基于红色和蓝色进行彩色票据图像的二值化,这种基于彩色分量的二值化图像更能表现出颜色特征的细节,通过颜色特征统计来判定印章的颜色。
若该像素点是在红色印章区域内,则其红色分量灰度值[R]大于灰度均值[I],相应的蓝色[B]和绿色[G]分量灰度值则小于灰度均值[I]。首先,记彩色票据图像Img中基于红色分量直接二值化后图像为[Ired],即若该像素点各颜色分量灰度满足:
[R>I; B
若该像素点在红色印章区域内,令像素点[(i,j)]的灰度值[Ired(i,j)=1],否则[Ired(i,j)=0]。并对红色像素点进行统计,即统计[Ired(i,j)=1]的个数,记为[N1]。
有式(1)如下:
[N1=i=ti=bj=j=rIred(i,j)] (1)
式中[Ired(i,j)=1 ,R>I,G
(2) 相应地,记彩色票据图像Img中基于蓝色分量直接二值化后图像为[Ibue],若该像素点是在蓝色印章区域内,则对应的各颜色分量的灰度值应同时满足:
[G>I; R
同理,在根据蓝色分量分割的二值化图像中,令满足条件的像素点对应的灰度值[Ibue(i,j)=1,]否则[Ibue(i,j)=0]。即在蓝色印章区域的像素点的灰度值为1,其余为0。并统计蓝色像素点的个数,即统计[Ibue(i,j)=1]的个数,记为[N2]。
有式(2)如下:
[N2=i=ti=bj=j=rIbue(i,j)] (2)
式中[Ibue(i,j)=1 ,G>I,R
(3) 利用过程(1)和过程(2) 的方法,遍历票据图像中的每一个像素点。
(4) 获得该彩色票据图像的基于红色和蓝色两个分量的二值化图像[Ired]和[Ibue]。分别统计出二值化图像中红色和蓝色分量像素点的总数。
若在红色分量二值化图像[Ired]中,当灰度值为1的像素总数大于设定的某个阈值(先验条件),即若[N1>]Threshod1,则可以判定此彩色票据中印章的颜色为红色。若在蓝色分量二值化图像[Ibue]中,灰度值为1的像素总数大于相应的阈值(先验条件),即若[N2>]Threshod2,则可以判定彩色票据中印章的颜色为蓝色。
根据以上方法实现票据中印章颜色的判定。由实验统计,得出红色印章最优的分割阈值Threshod1,取值范围为80~100。对于有蓝色印章票据,根据实验找出合适的分割阈值,Threshod2的取值较小,取值范围为60~80。
2.2 票据印章部分的提取
一般来说,银行票据中印章遮挡的区域主要包括灰色背景区域和黑色有效字符区域。印章遮挡字符检测的优劣直接影响到后续票据字符的提取以及整个票据识别系统的性能。一个良好的检测方法应该基本涵盖所有印章遮挡区域的信息。
根据判定的票据印章颜色,进行对应颜色的分割处理。先对票据图像基于彩色分量进行第一次分割,对每个像素点确定一个阈值,根据阈值决定当前像素是前景还是背景点。从而使得彩色印章部分与背景有效信息分离,再对提取出的印章部分进一步处理。以图1为例,已经由第2.1判定出印章的颜色为红色。获取票据印章部分,步骤如下:
(1) 分割出彩色票据图像Img的红色分量部分,记之为Gred。对整个票据逐个像素点遍历,对于像素点[(i,j)]的灰度值为[Gred(i,j)=R(i,j)],其中[R(i,j)]彩色票据图像Img像素点[(i,j)]的红色分量。
(2) 在提取的只有红色分量的灰度图像Gred中,印章区域在内部有均匀一致的灰度值,背景区域处在一个具有其他等级灰度值的均匀背景下,使用阈值法就可以得到两者的分割结果。凸显出印章目标轮廓,进行阈值分割处理 。
利用阈值选取技术来分割灰度图像Gred,动态调节阈值可动态观察其分割图像的具体效果。经过实验找出最优的分割阈值,获得包含印章区域的二值化图像记为[B1],如图3所示。
图3 红色分量二值图像[B1]
二值化处理是印章滤除过程中非常关键的一步。其目的是提取出印章关键信息,将票据的背景和有效字符部分进行过滤,从而对印章遮挡的有效字符进行局部处理。在阈值选取上,前人提出很多算法以及一些改进的算法。本文采用的是最大类间距法。在实验中,有效地滤除了噪声,得到较好的印章图像。
在二值印章图像[B1]中,滤除了票据背景信息和有效字符,提取出彩色印章区域(包括印章遮挡的字符),从而实现了彩色图像的第一次滤除。
同理,当判定出印章颜色为蓝色时获取印章区域,首先需分割出彩色票据图像的蓝色分量;再进行动态的调节阈值有效地分割出印章和背景区域。
2.3 印章遮挡字符的获取
在获取的印章二值图像[B1]中,印章部分包含目标遮挡字符,需要对印章图像[B1]进行第二次分割,实现遮挡字符与印章的分离。提取印章遮挡字符,具体步骤如下:
(1) 对票据图像进行印章的粗滤除,获得的二值图像[B2]是对票据图像直接进行全局二值化处理,使得票据中的有效字符信息和章印分离。显然,图像中还存在部分印章噪声,即满足如下条件:
遍历整个票据图像的像素点,若该像素点[(i,j)]的红色分量的灰度值[R]大于各颜色灰度均值[I]的[k]倍时,则令二值图像中该像素点[(i,j)]的灰度值为1。实现突显有效字符,减弱印章像素点,即若[R(i,j)>k*I(i,j)]时,则使得[B2(i,j)=1],否则,[B2(i,j)=0],其中[k]为常数,调节参数[k]可获得最佳的阈值分割效果。
图4 字符分割图像[B2]
(2) 分析在印章的二值图像[B1]中,包含有遮挡字符的目标信息,而在二值图像[B2]中,遮挡的字符已经被滤去。若该像素点[(i,j)]为被遮挡的字符,则应满足如下条件:
[B1(i,j)=1, B2(i,j)=0;]
根据以上条件,遍历对应像素点在二值图像[B1]和[B2]的灰度值,可以提取出被印章遮挡字符的二值图像[B3],如图5所示。
(3) 提取印章遮挡字符二值图像[B3]目的是定位出遮挡字符的像素点位置,为后续的对应位置的字符作增强处理。显然,这里二值图像[B3]存在部分噪声干扰,故需要对二值化图像[B3],进行一次滤波,减少干扰噪声,后续即可准确地增强遮挡字符信息。
图5 被遮挡字符图像[B3]
本文采用的是中值滤波,在一定条件下可以克服线性滤波器如最小均方滤波和均值滤波等带来的图像细节模糊。最终获得被印章遮挡字符的二值图像,记为[B],如图6所示。
图6 滤波后的图像[B]
以上为提取红色印章中遮挡字符的步骤,通过两次分割彩色图像,实现被印章遮挡字符的有效提取。对于蓝色印章,将步骤中的红色分量换成蓝色分量处理,采用类似的处理方法即可得到有效的提取被遮挡的字符信息。
2.4 合成印章滤除后的图像
检测印章遮挡区域完成后,根据票据图像出现不同的降质现象而采用不同的灰度修正方法。只将图像中感兴趣的特征有选择的突出,而衰减其次要信息, 目的是对印章遮挡的部分进行图像增强处理[7?8],增加图像的灰度对比度。
将印章区域(不含遮挡字符)用票据的平均背景灰度进行修正,从而有效地消除印章干扰。因此,可以获得银行票据整体的有效字符信息,为票据后续的字符识别建立良好的基础。根据检测出的印章颜色,对票据图像逐点进行不同程度的灰度级修正,即对票据图像[Img]在空间域中进行灰度的非线形映射处理,达到图像增强目的。记最终印章滤除后的灰度图像为[G],其在像素点[(i,j)]的新灰度值,满足以下条件:
(1) 若该像素点是被印章遮挡的有效字符(根据2.3定位出具体的像素点位置),将该像素点的灰度值减小,灰度加深,实现字符增强。即若[B(i,j)=1],则令[G(i,j)=k*I(i,j)],其中[B(i,j)=1],表示该像素点为遮挡字符,[I(i,j)]为像素点各颜色分量的灰度均值,[k]为常数,本文的[k=0.7]。
(2) 若该像素点是干扰的印章,用票据背景灰度修正。即若[B1(i,j)=1]且[B(i,j)=0],则令该像素点灰度值[G(i,j)=BKgray],其中[BKgray]为票据背景的平均灰度,本文的[BKgray=210]。首先,通过全局二值化票据图像,找出票据中的背景像素点,并令其票据前景像素点的灰度值为1,背景像素点的灰度值为0。再取票据中的一个小区域进行逐点遍历,实际的票据图像情况各异,具体问题具体分析,需要根据实际情况选择合适的方法。考虑一般票据的左上方区域背景像素点比较集中,则可以选定这块区域来求背景的平均灰度,这样有利于针对性地求出背景色且数据的处理和压缩量小,并提高系统处理速度。找出选定区域中各个背景像素点,对应其在彩色票据图像中三基色的灰度均值进行求和取平均计算,用所得的灰度平均值作为整个票据的背景灰度值。
(3) 其余的有效像素点(背景和字符区域)灰度值,令[G(i,j)=I(i,j)],[I(i,j)]为像素点各颜色分量的灰度均值。同样,如果票据中的印章为蓝色,仅需将红色[R]分量改为蓝色[B]分量进行相应图像增强处理。对应的常数[k],需做出相应的调整,才能获得最佳的印章滤除效果。该算法能够有效地消除印章的干扰,同时对印章覆盖的笔画字符信息情况能够很好的保留。印章滤除后的图像,如图7所示。
图7 滤除印章后的图像[G]
相应地,票据印章为蓝色,印章的滤除也获得良好效果。滤除蓝色印章后的灰度图。
3 实验结果
3.1 实验方法
实验样本图像为银行的320张带有印章的票据,其中票据中印章的颜色为红色或者蓝色,照片是通过相应设备从票据上方拍摄。其中拍摄的票据不发生严重扭曲、变形,仅有一定角度的倾斜,票据中字符颜色多为黑色或灰色,票据图像上除了印章外无其他明显遮挡物。
票据识别系统对获取的票据图像,首先,进行印章颜色的检测,根据印章颜色,进行对应颜色分量的提取,从而得到包含印章区域的二值化图像。然后,对彩色票据中有效字符信息的进行第一次滤波,获得的图像中仅包含彩色印章部分。再将图像中的彩色印章区域进行第二次的分割,滤除印章噪声,从而获取印章遮挡字符信息。最后,对灰度图像进行图像增强处理,突出遮挡字符特征,并衰减干扰的印章,将含有彩色印章的银行票据转换成滤除印章后的灰度图像。
3.2 实验结果
本文测试的样本集共有320个图像。首先,实验对图像进行印章滤除,倾斜校正等。然后,对其进行识别。最后,得到识别结果。表1是关于印章滤除主观结果及实验识别结果的比较。
表1 测试结果对比
表1中的识别率为整张票据字符完全识别的正确率。根据测试表明,在票据中若待识别的字符颜色较深,则印章滤除效果更好,整张的识别正确率会更高。
3.3 实验速度
测试环境:主频为1.86 GHz的PC机,对尺寸为1 600×500的320张彩色银行票据进行印章去除实验,平均时间小于1.2 s。目前主流微机一般在2 GHz以上,该速度已能适应实用要求,根据识别率以及耗时的比较与分析,最终通过实验验证了方法的可行性和精确性,具有很大的实用价值。
4 结 语
本文提出一种基于彩色图像二次分割与图像增强相结合的方法,实现票据彩色印章的有效滤除。通过对印章遮挡字符的有效增强,最终获得印章滤除的票据图像。实验结果表明,本文提出的印章滤除方法提高了票据信息提取的有效性。票据印章滤除的自动化处理过程,有利于将打印体票据在金融票据识别中推向实用,具有其广阔的应用前景。
本文仅是对彩色印章滤除进行了初步研究。在今后的工作中,将继续深入研究针对印章票据,如何更好的分割出印章和票据信息,从而最终获得高质量的票据信息。另外还需要扩大实验样本数量、类别,在众多的实验情况下进行大规模测试,进一步提高票据信息提取的有效性。
参考文献
[1]卜飞字,刘长检. 一种实用的彩色银行票据二值化方法[J]. 计算机时代, 2007.
[2]徐长新,彭国华. 二维0tsu闭值法的快速算法[J]. 计算机应用, 2012, 32(5).
[3]郭侍,刘晓玉. 一种光照不均匀图像的二值化方法[J]. 计算机应用与软件, 2014.
[4]王序哲. 局部自适应二值化方法研究[J]. 软件导论, 2011, 10(11):13-14.
[5]汉海春,张奋. 一种新的图像二值化方法[J]. 湖南文理学院学报, 2007, 19(1).
