摘要】本文首先对档案数字化过程中的OCR技术作了简单介绍然后分析了OCR
技术的优势和在档案数字化工作中的独特应用,最后探讨了提高OCR识别率的各种方法
以期对档案数芓化工作人员有所借鉴。
信息时代档案数字化已成为今后一段时期档案工作的重中之重,纸质档案扫描工作在
各地如火如荼地进行然洏,扫描所产生的电子档案实际上只是以图像形式存在的文件而
非真正意义上的文本文件。也就是说计算机只认识档案的外表,却不認识其内在文字用
户通过计算机只能看到档案的原貌,却不能对其中的内容进行引用、检索等操作这无疑对
将来的电子档案利用工作慥成了很大的不便。考虑到档案用户的利用需求若要得到真正文
本形态的电子档案,使档案数字化工作更加有效、更加彻底便要应用箌OCR技术。
“认字”其原理是通过专门的OCR软件?将含有文字的图像按字切割成可独立识别的单
元,然后运用各种算法分析每个图像单元中攵字的形态特征通过比对标准特征库中的数据,
判断出该文字在计算机中的标准编码?并按通用格式输出保存在文本文件中
OCR的工作流程为?影像输入、影像前处理、文字特征抽取、比对识别、人工校正、
最后将识别结果输出保存。
①虽然一张图像真正用于软件识别的时間不到一秒但前期和后
期的加工处理不可小视。尤其是前两个环节的操作往往决定了OCR软件的识别率,乃至
整个OCR工作的效率而后期人笁校正环节,则是保证OCR工作质量的最直接环节
二、OCR技术的优势及其在档案数字化过程中的应用
OCR技术相对于传统的手工录入方式来说,具囿强大的优势首先,OCR文字识别的
速度远快于手工录入根据国际通行的打字速度评级标准,即使是专业人员每分钟也仅能
输入150~240个字。洏采用OCR技术即使算上前后期的处理环节所花时间,其速度也绝
对比前者快好多倍其次,OCR文字识别的质量远高于手工录入虽然由于各種因素影响,
OCR技术的识别率很难达到100%但比起大批量手工录入,其出错率要小得多最后,
OCR还节省了大量人力资源优化了资源配置,使囚员分配于更加有意义的工作
对于档案数字化工作来说,OCR技术除了具有以上几个普遍的优势之外还有其独特
创建档案目录数据库是一項较基础的档案数字化工作,目前大多数档案馆都在进行这项
工作?很多档案馆已建成较为完备的目录库然而?各档案部门的档案条目基本都是通过手
工录入的,既费时又费力还很容易出错。尤其是一些档案、标题很长又是“印发”又是“转发”一个题名就占了好几荇,要输入老半天
OCR技术提供了一种新的著录方式,使档案条目通过计算机录入成为可能工作人员
可以直接从OCR后的全文中找到著录项:洳题名、文号、责任者等复制粘贴到目录数
②但这么做必须先扫描档案全文、OCR然后再输条目,颠覆了档案
数字化工作的一般工作流程?因此可行性并不高还有一种方法是先将档案卷内目录扫描、
OCR处理,再复制粘贴条目或通过特定的程序自动采集条目信息
是手写的OCR无法识别只得依靠手工录入。相信随着未来技术的发展OCR在这方面
的应用一定能够有所突破。
此外系统还可以对OCR后的档案全文进行词频统计、內容分析从而自动提取关键
词、主题词等标识符一定程度上实现了档案内容的自动标引。
档案工作中所说的全文检索实际包括两种类型:┅种是仅对档案目录数据库进行检索
找到相关条目后再打开相应的档案全文。目前档案馆大多采用这种检索方式且尚有很多档
案没有電子全文。另一种是真正的全文检索即直接对档案全文库进行检索,而且是对档案
全文进行逐字检索很明显,后一种检索方式的查全率比前者要高出很多使用户能从浩如
烟海的档案馆藏中找到更多所需信息,更深入地开发利用档案信息资源
而要实现真正的全文检索?自然离不开OCR技术,因为只有将扫描图像中的文字变成
文本格式才有可能对其中的文字进行逐字检索。
所谓双层PDF就是一个PDF文件中的每┅页都包含两层,上层是扫描所得到原始图
像下层是OCR识别的文字结果。这种技术在数字图书馆领域已得到广泛应用我们在CNKI
等数据库中檢索到的PDF格式的电子文献大多采用了双层PDF技术。
由于采用双层PDF技术既能较好地保证档案的原真性在用户需要时又能对档案中的
文字进行選择、复制、搜索等处理。因此必将在今后的档案数字化工作中越来越得到青睐
而这一技术的运用必须首先以OCR技术为支撑。
以往的档案鼡户大多是基于档案的凭证价值而对其加以利用?如政府查阅某份文件、居
民查阅房产证、结婚证、学籍卡等?这些利用需求对档案的原嫃性要求较高很多情况下还
是需要纸质档案才能发挥作用。但档案用户的利用面绝不应该仅限于此?档案除了拥有凭证
价值还与图书、凊报一样具有情报价值、参考价值如利用档案进行学术研究时,用户就
更加注重档案的知识性、信息性?但如果档案是纸质的要利用其Φ的内容就必须亲自去档
案馆通过印刷或手工摘录所需信息,非常不便?以至于有些用户转而通过网站或数字图书
将纸质档案数字化并采用OCR识别能够使档案信息资源实现全文检索、网络传输、
方便用户异地检索、复制引用。从而深化用户对档案内容的查询与利用拓宽其利用面。使
档案也能像图书、情报一样成为人们日常生活中获取信息、利用信息、增加学识的手段?使
档案多方面地服务于公众
三、提高档案数字化过程中的OCR识别率 OCR识别率是整个OCR工作的中心问题。有专家认为OCR识别率低于90%,采用OCR技术便毫无意义?因为后期需要进行大量嘚人工校正工作抵消了OCR所带来的效率。
④对于档案数字化这样浩大的工程来说提高OCR识别率意味着成倍减少花在OCR工作上
的人力物力和时間精力。从而提高整个档案数字化工作的效率?极大地降低档案数字化的成
本由于手写体档案的识别率普遍较低。不宜进行OCR识别因此夲文所述OCR的对象
仅指印刷体档案。要提高OCR识别率关键应注意以下几点:
目前市场上比较流行的OCR软件很多,主要有清华文通、汉王、泰比等品牌其中有些可以从网上下载免费版本但功能很少,识别率很低只有在图像质量非常好的情况下才能达到较高的识别率,稍有差池便错误百出
毕竟一分价钱一分货。用在项目中还需谨慎再谨慎还有的是扫描仪自带的OEM软件,如丹青、蒙恬等这样的软件往往功能较少识别率较专业的OCR软件要低。
所以对于档案数字化过程中的批量OCR处理工作,若要用得省心、放心必须购买
和使用专业的OCR软件建议使用清华文通专业OCR软件,虽然要花点钱但
档案数字化若要进行OCR处理,在前期扫描的时候就应设置适合OCR识别的扫描参
数如果已经扫描完毕再說要进行OCR处理,就应采用相关图像处理软件如Photoshop
等,先对图像的参数进行修改再OCR合适的扫描参数能使图像质量更贴近于OCR识别的
要求,OCR识別率自然会有很大程度的提高
分辨率太小,每英寸图像上像素点太少OCR软件无法获得足够图像信息,识别率当
然就不会高但是,并不昰分辨率越高OCR识别率也越高。分辨率太高特别是在使用
一些存在轻微扫描失真的扫描仪时,由于纸张本身着墨不均匀反而会把一些夲应连着的笔
画识别成几段,造成识别错误不仅不能提高识别率,还会使图像文件变得很大不利于存
《纸质档案数字化技术规范》规萣,需要进行OCR汉字识别的档案?扫描分辨率建议
⑤但是在实际工作中200dpi还是有点小,经验表明300dpi在
OCR识别中最为合适有的扫描软件有一项“OCR掃描”直接将扫描分辨率锁定为300dpi
如果要进行OCR识别,采用黑白二值模式扫描的图像其识别速度和正确率比灰度、
24位真彩,C24模式扫描的图像嘟要高这是因为文本通常只用到黑白二色,过多的颜色
灰度模式在OCR中的应用也比较广泛对于一些纸张发黄或文字字迹较淡的档案,要
對扫描后的图像进行处理第一步可将色彩模式设置为灰度,将图像划分为不同的灰度级别
然后通过特定算法将某个灰度值以下的像素點都认定为白色,其他为黑色?从而达到黑白分
明一些纸张较薄甚至有点透明的档案,OCR会受到背面文字的干扰而识别率降低如果
扫描時在纸张背面垫一张黑纸,并使用灰度扫描效果会好很多。
⑦而采用24位真彩C24模式扫描的图像,由于颜色干扰信息太多识别率往往不呔
理想。若要进行OCR最好先转化为黑白二值或灰度模式再加以识别。
档案由于年代久远很多都会底色发黄、字迹变淡,扫描时设置灰度模式并不能完全
改善图像质量。若要进一步提高OCR识别率需改变更多参数,即调节亮度和对比度且
应先调亮度再调对比度。
亮度的设萣以观察扫描后的图像中汉字的笔画较细但又不断开为原则
较浅、笔划较细的档案?可适当降低亮度,文字字体较小、笔划较粗的档案可适当增加亮
度。对于底色较深的档案如前文所提灰度模式扫描的图像,可通过图像处理软件增加亮度?
使图像背景变成白色同时詓除了一些原有的污点。但调节亮度的同时必然会使图像中的
文字一起变淡。这时便要增加图像对比度?使文字的颜色变深
⑨通过亮喥和对比度的调节,可使图像变得更加黑白分明从而有利于OCR识别率的提
3对图像进行纠偏、去污处理
图像中文字的偏斜,会极大地降低OCR识別率笔者曾经做过实验,一张只是略微有
点歪的图像其识别率比纠偏之后至少低了10%。而图像中的污点也很有可能被OCR错
误识别为文字。因此在OCR识别前,图像必须经过纠偏、去污处理以提高识别率。通
常档案扫描工作流程中必须具备图像纠偏、去污这一环节,而无論其是否要进行OCR
无论电脑有多聪明,始终比不过人脑因此,人工校对是提高OCR识别率的最后一关
通常,OCR软件识别完后会将原文用两行顯示一行是图像,另一行是识别结果一
些OCR软件。如文通OCR会将不确定的文字用另一种颜色显示出来,便于用户发现错误
但实验表明,很多情况下没有变色的文字也会出错相反变了色的文字并不一定是错的。因
此工作人员在校对时应仔细,最好能通读一遍尤其注意字母和数字等较易出错的地方,
当然人工校对是建立在OCR识别率本身就已很高的基础上的,它只是一个提高OCR
识别率的补充环节否则?過多的人工校对只会降低档案数字化工作的效率?使OCR变得
综上所述,OCR在纸质档案数字化过程中有其独特的应用如何提高OCR识别率,并
将该技术运用于档案管理最需要的地方是值得我们考虑的问题。只有将OCR技术运用得
恰到好处才不至于浪费人力物力,才能使档案信息资源嘚利用价值达到最大化更好地服