我虽说是一个软件行家,但是绝大多数软件的简单操作我还是手到擒来。由于工作关系,用过了很多的文字识别软件,俗称OCR软件,对于大多数这类软件都觉得功能还可以,但总有不如意的地方。当朋友拿来一款新的佳能扫描仪和随机的OCR识别软件软件的时候,我决定试用一下。
佳能扫描仪OCR的试用手记之一
我虽说是一个软件行家,但是绝大多数软件的简单操作我还是手到擒来。由于工作关系,用过了很多的文字识别软件,俗称OCR软件,对于大多数这类软件都觉得功能还可以,但总有不如意的地方。当朋友拿来一款新的佳能扫描仪和随机的OCR识别软件软件的时候,我决定试用一下。
所谓文字识别,就是把纸张的文字转换成为可以用软件编辑这些文字的工具,将原有的图形文件转换成为电子数据的文档,便于保存,发送或是修订。这就需要使用扫描仪,将打印或是报纸、杂志等等文稿扫描成为图片,然后再使用软件将这些图像上的文字转换成为可以用word,excel等软件进行编辑的文档。
佳能随机软件是RosettaStone。启动这个软件的时候,屏幕上出现一只衔着字母的小鸟,后面黄色的岩石上面有很多鸟兽符号,听说这是在尼罗河发现的埃及神石,上面记录了埃及不同时代的文字,这可能是表示这款软件对于文字识别的优势。先看了一眼版本信息,竟然发现这款软件的版权是佳能公司,一直以为佳能生产相机,外设,没想到还有软件开发呢。
以前也使用过相关的识别软件软件,觉得应该没有问题,但第一次用这个佳能扫描仪送的软件,感觉还是有点不知所措。他的界面要比其他软件显得更工整,真是大公司的产品,但就是有点不知从哪里开始的感觉。在屏幕左上有一个“Wizard”的按键,点击按键弹出一个对话框:OCR向导第一步/共三步。有两个选择,扫描仪输入和图像文件输入,它不仅支持扫描仪扫描的图像也支持对已有得图像进行识别。实际上这个按键是一个自动OCR的功能,让用户能够根据提示进行文字识别工作。选择扫描仪输入并点击下一步,进入第二步:选择区域划分的方法。选择了自动区域划分。进入第三步:选择输出目标。可以选择保存到文件,作为邮件的附件发送,保存到剪贴板,在文本窗口中显示。我选择了保存到文件,点击结束按键。
佳能扫描仪OCR的试用手记之二
在做完设置后,自动弹出了佳能扫描仪的驱动程序。使用佳能扫描仪驱动的简单模式,在扫描目标项目下有OCR(300dpi)的选项。预览后直接点击扫描就可以了。RosettaStone会直接将扫描后的图像进行区域划分,并进行识别工作,直接保存识别结果。在输入文件名称后,会提示保存文件的类型;包括带框和无框的RTF文件,这个文件类型是Word软件支持的类型;HTML文件格式,这是网页使用的文件;文本文件;以及CSV文件,这个文件是EXCEL软件支持的表格文件。如果想要立刻编辑这个文件,一定用“√”将“启动相关应用程序”选中,这样就可以启动与保存文件类型相应的软件进行编辑整理工作了。
实际上,还可以通过Wizard旁边的四个功能按键进行扫描识别工作,其作用和Wizard是相同的,只是需要按照提示操作,但加入了更多的个性化的步骤。其实为了保证识别效果,需要很多个人的操作方式。我们就以对杂志上的文件进行文字识别加以说明。很多需要进行识别的文件会有一些杂质比如笔记,油污等,特别是扫描后的图像会更清晰,就需要在区域划分前对版面进行一定的处理,用软件提供的橡皮擦除识别区域外多余的部分。对于黑色底的文档识别,可以用黑白反转功能。如果扫描文件没有放置在正确位置而略有倾斜,这个软件能够进行自动倾斜校正功能。这样做的好处就是提高扫描识别的效果,减少后期不必要的操作。
在进行完区域划分后,软件会提示划分的内容,绿色部分是中文文档部分,黄色为英文文档,蓝色为图像,粉色是表格区域。RosettaStone
软件拥有强大的中、英文混排识别功能,能够快速、准确地识别出不同区域内的英文和中文文字。对于中文竖排版的文件,也能够在同一个区域划分中进行有效划分,并准确识别。当区域划分时有不当的划分区域,建议还是自己手动划分,效果会更好。
作为日常工作中大量运用的表格,RosettaSone
也能够准确无误的进行识别。所有识别结果会在软件的右边进行显示。如果发现某些文字不能识别出来,用鼠标拖住这部分,就会在右侧的图像中显示原始的图像。另外,如果点击鼠标右键还有分离模式和合并模式,这样可以对照原有的文字图像进行有效的修改,提高了软件的使用效率。
不过在这个区域中,用户是看不到任何的图像和表格的,在所有识别工组和校正工作结束后,需要点击最后一个图标“保存到文件”,这样就能够看到识别文件的版面恢复效果了。保存文件的格式上面已经说过就不再说明了。
佳能扫描仪OCR的试用手记之三
从识别效果来说,RosettaStone的识别率还是非常高的,我估计文字的识别率能够达到98%左右。不过在中英文混排的位置由于字体和大小不同,会有一些出入。即使这样,在我所用过的随机附送的识别软件中,这个识别率以及中英文混合识别的水平也超越了其他产品。主要是识别成了别的字或是出现分割的错误。最让人不可小看的是在中文,英文同时存在的条件下,英文的识别率特别高。没有出现其他品牌的乱码现象。另外一个我非常喜欢的地方在于它能够将原始文件的排版格式还原在电子文档中,图像位置与文字的排版非常准确,不用再做二次处理了。
总和而言,我觉得佳能送的这款软件具有得天独厚的优势。不过很多功能我估计还没有使用到。话说回来,再好的软件如果各位只是停留在观看而不去使用的话永远不会发现他的好处的。想让文字录入工作变得轻松起来吗,还不快点试试佳能扫描仪随机文字识别软件软件——RosettaStone。
网友评论