一款中英文识别的版面恢复利器

互联网 | 编辑: 庞博 2005-06-15 00:00:00 一键看全文

我虽说是一个软件行家,但是绝大多数软件的简单操作我还是手到擒来。由于工作关系,用过了很多的文字识别软件,俗称OCR软件,对于大多数这类软件都觉得功能还可以,但总有不如意的地方。当朋友拿来一款新的佳能扫描仪和随机的OCR识别软件软件的时候,我决定试用一下。

佳能扫描仪OCR的试用手记之二
    在做完设置后,自动弹出了佳能扫描仪的驱动程序。使用佳能扫描仪驱动的简单模式,在扫描目标项目下有OCR(300dpi)的选项。预览后直接点击扫描就可以了。RosettaStone会直接将扫描后的图像进行区域划分,并进行识别工作,直接保存识别结果。在输入文件名称后,会提示保存文件的类型;包括带框和无框的RTF文件,这个文件类型是Word软件支持的类型;HTML文件格式,这是网页使用的文件;文本文件;以及CSV文件,这个文件是EXCEL软件支持的表格文件。如果想要立刻编辑这个文件,一定用“√”将“启动相关应用程序”选中,这样就可以启动与保存文件类型相应的软件进行编辑整理工作了。


    实际上,还可以通过Wizard旁边的四个功能按键进行扫描识别工作,其作用和Wizard是相同的,只是需要按照提示操作,但加入了更多的个性化的步骤。其实为了保证识别效果,需要很多个人的操作方式。我们就以对杂志上的文件进行文字识别加以说明。很多需要进行识别的文件会有一些杂质比如笔记,油污等,特别是扫描后的图像会更清晰,就需要在区域划分前对版面进行一定的处理,用软件提供的橡皮擦除识别区域外多余的部分。对于黑色底的文档识别,可以用黑白反转功能。如果扫描文件没有放置在正确位置而略有倾斜,这个软件能够进行自动倾斜校正功能。这样做的好处就是提高扫描识别的效果,减少后期不必要的操作。


    在进行完区域划分后,软件会提示划分的内容,绿色部分是中文文档部分,黄色为英文文档,蓝色为图像,粉色是表格区域。RosettaStone 软件拥有强大的中、英文混排识别功能,能够快速、准确地识别出不同区域内的英文和中文文字。对于中文竖排版的文件,也能够在同一个区域划分中进行有效划分,并准确识别。当区域划分时有不当的划分区域,建议还是自己手动划分,效果会更好。



    作为日常工作中大量运用的表格,RosettaSone 也能够准确无误的进行识别。所有识别结果会在软件的右边进行显示。如果发现某些文字不能识别出来,用鼠标拖住这部分,就会在右侧的图像中显示原始的图像。另外,如果点击鼠标右键还有分离模式和合并模式,这样可以对照原有的文字图像进行有效的修改,提高了软件的使用效率。



 


    不过在这个区域中,用户是看不到任何的图像和表格的,在所有识别工组和校正工作结束后,需要点击最后一个图标“保存到文件”,这样就能够看到识别文件的版面恢复效果了。保存文件的格式上面已经说过就不再说明了。

提示:试试键盘 “← →” 可以实现快速翻页 

一键看全文

本文导航

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑