准备工作相当简单
本文作者:阿枫
我们知道,扫描仪进行电脑文字录入的原理是利用电荷耦合器件(CCD)对文稿、图片等逐点扫描,进行光电转换、模数转换后处理成专用格式的图片文件输送给计算机,计算机利用OCR(文字识别)软件,对图片上的文字进行识别,转换成计算机使用的TXT格式文本文件。用数码相机进行电脑文字录入的关键就是用数码相机代替扫描仪完成文稿的扫描工作,并把文稿转换成计算机能支持的TIF、JPEG格式的图片文件。
准备工作
做这项工作并不难,首先要准备一些应用软件,我们选用的是清华紫光OCR V7 .5文字识别软件(可以在网址http://act1.it.sohu.com/newdownload上搜索下载),还需要图像处理软件Photoshop和操作系统自带的“画图”软件。
使用这个命令可以将彩色照片转变成黑白照片。
将文件存为BMP文件,软件就可以识别了。
拍摄照片
下面以富士MX-2900数码相机为例介绍具体操作方法。把文稿拍成图片要用到翻拍技术,翻拍不同于普通的人像和风景照相,对光线、距离、曝光都有不同的要求,而且不能使用自动方式拍摄。首先打开数码相机的电源,对一些参数进行设置,选择照片的质量为“Fine”档,像素为1800×1200,清晰度为最高档。将相机设置为手动拍摄模式,打开相机的近拍功能,调整曝光补偿为+0.9EV,最好用自然光,强行关闭闪光灯(用闪光灯拍摄,会使图像整体明暗不均,影响效果),对准需要录入的文稿,按下快门,一张文字清晰的图片就拍摄完成了。
实际操作处理过程
传输照片
现在要把照片传输给计算机,数码相机与计算机连接有两种方式,一种使用USB接口,这种方式连接方便,传输速度快,装上专用的驱动程序就行。另一种是串行接口,传输速度较慢,老式数码相机采用串口较多,传输大的文件需要一定的时间。富士MX-2900数码相机采用的是串口模式与计算机连接,在计算机上装好驱动程序,将数码相机与计算机连接,打开Photoshop软件,从“文件”菜单中的“输入”选项中选择“TWAIN32”,就可导出数码相机中的照片文件。
图片处理
导出的图片文件不能直接在OCR V7 .5文字识别软件中使用,因为该软件只能使用TIF、BMP、PXC三种格式的黑白图像文件。而数码相机输出的文件一般有两种格式,TIF格式和JPEG格式。由于获得的是彩色图片,所以要把导出的文件处理一下。在Photoshop软件中,选择“图像”命令菜单的“调整”选项,然后选“阈值”命令,该命令可以将一张彩色或者是灰度图片根据指定的阈值转变成一张具有高反差的黑白图片。我们可以根据图片的效果适当调整图片的阈值,就可把数码相机导出的照片变成高反差的黑白照片,但这还不是二值(黑白)图像,需要把图片另存为BMP格式文件,关闭Photoshop软件。打开操作系统中附件里的“画图”软件,打开保存好的BMP文件,另存为单色位图文件。这样数码相机所拍摄的图片经过处理很容易就变成了OCR V7.5文字识别软件可使用的BMP格式黑白图像文件。
在OCR V7 .5文字识别软件中,在命令菜单中选择“打开”,在对话框的文件类型中选择“BMP格式”,打开文件,选好识别区域,就可识别文字,实际的识别效果非常不错。你看是不是很神奇,一页A4幅面的文稿只用几秒钟就可识别完成。至于识别软件的功能和用法还是留着大家自己去摸索吧!
最后强调的是,文字识别的成功与否主要取决于数码相机拍摄图片的质量,一是要合理选择数码相机的像素,现在200万像素以上的相机很普及,价格也不贵。而只有640×480的30万像素老数码相机拍摄的图片文字识别率很低,一般不能用来翻拍。二是要合理使用光源,光线尽可能用自然的散射光,还要关闭数码相机的闪光灯。翻拍白纸黑字的文稿时,要使用手动拍摄模式并增加曝光补偿,拍出的照片才会光线均匀,经过Photoshop软件处理后字迹清晰,如果图片拍摄的好,可以不用在Photoshop中调整图片的阈值。只需要在Photoshop中转换一下图片的文件格式,然后就可以直接在“画图”软件中把BMP格式的图片文件调入并保存为单色位图文件。
网友评论