OCR的概念是在1929年由德国科学家Tausheck提出来的,后来美国科学家Handel也提出了利用技术对文字进行识别的想法。而早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy,1966年他们发表了篇关于汉字识别的文章,采用了模板匹配法识别了1000个印刷体汉字。早在60、70年代,就开始有OCR的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字
工业读码器图片
OCR的概念是在1929年由德国科学家Tausheck提出来的,后来美国科学家Handel也提出了利用技术对文字进行识别的想法。而早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy,1966年他们发表了篇关于汉字识别的文章,采用了模板匹配法识别了1000个印刷体汉字。早在60、70年代,就开始有OCR的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。

影像预处理:影像预处理是OCR系统中,须解决问题的一个模块。影像须先将图片、表格及文字区域分离出来,甚至可将文章的编排方向、文章的提纲及内容主体区分开,而文字的大小及文字的字体亦可如原始文件一样的判断出来。对待识别图像进行如下预处理,可以降低特征提取算法的难度,并能提高识别的精度。二值化:由于彩像所含信息量过于巨大,在对图像中印刷体字符进行识别处理前,需要对图像进行二值化处理,使图像只包含黑色的前景信息和白色的背景信息,提升识别处理的效率和度。

字词后处理:由于OCR的识别率并无法达到,或想加强比对的正确性及信心值,一些除错或甚至帮忙更正的功能,也成为OCR系统中必要的一个模块。字词后处理就是一例,利用比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出合乎逻辑的词,做更正的功能。字词数据库:为字词后处理所建立的词库。OCR后的关卡,在此之前,使用者可能只是拿支鼠标,跟着软件设计的节奏操作或仅是观看,而在此有可能须特别花使用者的精神及时间,去更正甚至找寻可能是OCR出错的地方。

(作者: 来源:)