第二讲 文本素材的采集与处理
本讲目标:
1.明确文本素材的五种获取方法。
2.掌握扫描仪的使用方法,会用扫描仪获取大量文本,并能利用文字识别软件对获取的文本进行修改编辑。
重点:获取文本素材的方法。
难点:大量文本的采集—扫描仪扫描文字识别法。
一、 五种文本素材的获取方法
文本素材的获取有直接获取与间接获取两种方式,直接获取是指通过多媒体教学制作工具软件的文字工具或在文字编辑处理软件中用键盘直接输入或复制,一般在文本内容不多的场合下使用该方式。间接获取是指用扫描仪或其他输入设备输入文本素材,常用于大量文本的获取。
文本素材的获取方法如下:
(1) 键盘输入方法
键盘输入方法是文本输入的主要方法,使用计算机输入汉字,需要对汉字进行编码,根据汉字的某种规律将汉字用数字或英文字符编码,然后由计算机键盘输入。汉字有音、形、义三个要素,根据汉字读音的编码叫音码,根据汉字字形的编码叫形码,兼顾汉字读音和字形的编码叫音形码或形音码。在常用的多媒体教学制作软件中,都带有文字工具,在文本内容不多的情况下,可以直接输入文字,对输入的文字可进行直接编辑处理。
(2) 手写输入方法
使用“输入笔”设备,在写字板上书写文字,来完成文本输入。利用手写输入法获取文本的方式,类似于平时我们在纸上写字,但对在写字板上书写的文字要经选择。手写输入方法使用的输入笔有两种:一种是与写字板相连的有线笔,另一种是无线笔。无线笔携带和使用均很方便,是手写输入笔的发展方向。写字板也有两种,一种是电阻式,另一种是感应式。
(3) 语音输入方法
  将要输入的文字内容用规范的语音朗读出来,通过麦克风等输入设备送到计算机中,计算机的语音识别系统对语音进行识别,将语音转换为相应的文字,完成文字的输入。语音输入方法目前开始使用,但识别率还不是很高,对发音的准确性要求比较高。
(4) 扫描仪输入法
将印刷品中的文字以图像的方式扫描到计算机中,再用光学识别器(OCR)软件将图像中的文字识别出来,并转换为文本格式的文件。目前,OCR的英文识别率可达90%以上,中文识别率可达85%以上。
(5) 从互联网上获取文本
  从互联网上可以搜索到许多有用的文本素材,在不侵犯版权的情况下,可以从互联网上获取有用的文字。从互联网的html页面上获取部分文本的方法是:首先拖动鼠标选取有用的文本,或单击鼠标右键,在弹出的快捷菜单中,选择“全选”命令,将整个页面上文字全部选中,然后选择“复制”命令,打开文字处理软件(如Word),选择“编辑”/“粘贴”命令,就可以
将复制的文字在文字处理软件中进行编辑处理了。如果将互联网上其他格式的文本文件(如:.pdf,.caj)格式的文件进行保存,然后使用部分有用文本,常用的方法是:选择“文件”菜单中的“另存为”命令,将文本文件进行保存,然后在打开的阅读器中,选择工具栏上的“文字选择工具”选取文字后,选择“复制”命令,然后在文字处理软件中选择“粘贴”命令。(注意:对有些.pdf,.caj格式的文件,处于版权的考虑,不允许选取复制)
对于大量印刷品中的文本素材,常用扫描仪以图像方式扫描到计算机中,再通过文字识别软件,将文字图像进行版面分析,文字识别后转化成文本文件,对识别不正确的文本进行编辑修改。下面具体介绍用扫描仪扫描文字的方法。
二、 扫描仪的主要性能指标与使用方法
扫描仪是一种光电一体化的计算机输入设备,有手持式(价格便宜、携带方便、但精度低、使用不便,目前较少使用)、平板式(目前使用较普遍)和滚筒式(可扫描较大的画面,主要用于工程设计)。
1. 扫描仪的主要性能指标
(1) 分辨率。分辨率是指扫描时每英寸获取的像素点数,单位为像素/秒。它分为水平分辨率和垂直分辨率。分辨率越高,扫描出的图像越清晰,但生成的文件也越大。常见的扫描仪分辨率为600*1200和1200*2400。
(2) 灰度等级。扫描时,对图像的亮度从最黑到最白进行划分的等级用灰度等级表示。级数越高,图像的亮度变化范围越大,图像的层次越丰富。目前,扫描仪的灰度等级有8bit(有28 =256个灰度等级)、10bit(有210=1024个灰度等级)和12bit(有212=4096个灰度等级)等。
(3) 彩数量。用来表示扫描仪在扫描时可以识别的最大彩数目。通常用每个像素点颜的位数来表示。如:24位可描述的彩个数最多为224=1677216。彩数量越大,图像彩越丰富,但生成的文件相对也越大。目前扫描仪的彩数量大多在32位以上。
(4) 扫描速度。扫描速度指扫描一个文件时间的长短,主要决定于扫描仪的接口模式、扫描仪步进电机的速率和扫描仪设定的分辨率。分辨率越高,扫描速度越慢。一幅A4幅面、300像素/秒分辨率的图像,大约需要扫描30—60秒。
(5) 扫描幅面。它是扫描仪可以扫描的画面的最大尺寸。常见的扫描仪的扫描幅面有A4、A4加长和A3等。
2. 扫描仪的使用方法
下面以MiraScan为例,介绍用扫描仪扫描文字图像和将文字图像转换为文本文件的方法。
(1)按照扫描仪的说明书,将扫描仪和计算机连接好,并安装相应的软件和图像编辑软件(如照片编辑器、Ulead PhotoImpact 或Phtoshop等)。然后接通扫描仪的电源,运行图像编辑软件。
(2) 打开扫描仪的上盖,将要扫描的图像正面朝下放入扫描仪中,并将图像的位置放正,合上盖子。
(3) 启动扫描仪运行程序后,单击 “文件”/“扫描图像”菜单命令,调出“MiraScan”对话框。然后,对扫描图像的参数进行设置,如设置扫描模式为“彩”、扫描来源为“反射稿”、图像解析度为“72”,然后选择“去网花”等。
(4) 单击“PreScan”(预扫)按钮,进行预扫,预览扫描范围是否得当。若不得当,进一步进行调整图像的位置或设置参数。
(5) 单击“Scan”按钮开始扫描,出现扫描进度提示,此时扫描仪的指示灯不断闪烁。
(6) 扫描完成后,单击“结束”按钮,然后保存图像即可。
3.对扫描的文字图像进行识别
用扫描仪扫描的文字图像,不能对个别文字进行编辑修改,在教学中,需要利用文字识别软件,将文字图像进行识别,将图像格式转化成文本格式,常见的文字识别软件有很多,主要功能基本相同,在此以ScanMaker 4850ii随机附送的尚书七号为例,介绍用文字识别软件对扫描仪扫描的文字图像进行识别的正确使用方法。
用尚书七号对文字图像识别转化的过程,利用其主菜单:“文件”、“编辑”、“识别”、“输出”可以很方便地完成。具体步骤为:
步骤1:获取文字图像文件。
选择“文件”菜单下的“扫描”或“打开图像”(将已经扫描好的图像文件打开)命令,打开图像文件。如果连接了多台扫描仪,可以选择“文件”菜单下的“选择扫描仪”命令,调用扫描仪。
步骤2:对扫描的图像页进行调整
选择“编辑”菜单下“图像页面的处理”子菜单下的“图像页的倾斜校正”(提供自动和手动实现方法)及“旋转”等命令,将扫描的图像页进行调整。
步骤3:版面分析与文字识别转化
版面分析,选择识别范围,在进行文字识别前要选择识别范围,识别过程的核心是“版面分
析”。尚书七号的自动版面分析功能很强,对报纸杂志等复杂的版面,也能保持很高的分析正确率。
设置好后,直接点击“开始识别”的按钮就可以进行文字识别了。
步骤4:校对修改
自动识别完毕,识别结果的“文本窗口”会弹出,这个窗口能够提供识别结果的校对,为了校对方便,尚书七号增加了光标跟随显示原图像行的校对方法(如图3出现的黄提示行的出现)。
美食食谱图片素材下载
提供的校对方法,一眼就能够看到图像原文和识别出文本的差别,如果发现识别有误,可以进行修改。
步骤5:输出
如果检查修改后确认无误,选择识别结果的“输出”菜单,输出的文件格式有:RTF、HTML、XLS、TXT,可以根据自己的需要选择对应的格式。如果用户想得到类似原文的识别结果,请选择RTF格式。把RTF格式输出的文件用WORD打开后,会发现几乎保留了原文的所有痕迹,包括原来页面中的彩图像,都已经保留在WORD中了。