胡晓平的歌 胡晓平:关于做好农普光电录入工作的若干思考
金华市第二次农业普查光电录入工作自2007年4月4日正式开始,历时整整两个月,于6月4日完成,是继2000年第五次全国人口普查后的又一次采用光电扫描录入手段的大型普查。采用光电扫描识别技术录入普查表,是现代光电扫描、识别技术在大型普查数据处理工作上的应用。
光电扫描识别技术分两大类:OCR(光学字符识别Optical Character Recognition的缩写)和OMR(光学标记识别Optica lMark Recognition)。
OMR技术已在教育招生等工作中普遍采用,而OCR技术对文字的书写、整洁度各方面要求比较高,为此,市、县两级农普办高度重视,千方百计安排普查经费,组织普查人员,落实相关设备,做好审核、抄录等工作,顺利完成14589个普查小区106.5万普查户195万张普查表的光电录入工作。
要做好农业普查光电录入工作,必须抓住以下几个关键环节:
一、思想上高度重视是做好农业普查光电录入工作的前提所在。
首先,在思想上高度重视,这是做好任何工作的前提,光电录入工作更是如此。根据2000年人口普查的经验,采用光电录入技术在组织工作上、准备工作上的要求要比传统的人工录入要高得多,没有严密的组织,没有充分的准备,将会严重影响光电录入工作的质量的进度,甚至无法进行下去的严重后果。
俗话说,老大难老大难,老大重视就不难,全市的农业普查工作特别是光电录入准备工作得到了局领导和普查办领导的高度重视,遇到问题亲自过问,亲自跑有关部门落实解决,这是全市光电录入工作得以高质量完成的重要前提。
二、选好抄录员并选择适当的抄录工作组织管理模式是做好扫描工作的基础所在。
普查表的抄录工作是一项简单而枯燥的工作,安排哪些人来做抄录工作,需要认真考虑。选择抄录员,一要选择有耐心的人。这样的人会静下心来,认真做好抄录工作;二要选择有责任心的人。这样的人做事认真,会抄好每张普查表;三要选择有一定素质的人。特别是字要写得比较好,这是基础。
在抄录工作的管理上,有几种方法可选。一是以县为单位,专门安排一批抄录员,进行集中抄录。这个做法的好处是,易于管理,可以经常检查抄录质量,可以掌握进度。但是因为工作量巨大,这种做法需要有一笔不小的经费做保障。
二是以乡镇为单位,进行相对集中抄录。这种做法可以将原来由县级普查办承担的工作分散到乡镇一级,但是县级普查办必须做好巡查等管理工作,掌握整个工作进度,经常性地检查抄录质量。乡镇普查办必须抽调责任心强的同志做好管理工作,定期对各抄录员的抄写质量进行检查。
三是分散抄录。将抄录工作交给抄录人员,由他们带回去抄写,这种做法灵活性比较好,并且节省经费,工作效率也比较高,但是管理难度较大,进度也不易掌握和控制。
如果经费允许,第一种模式是最理想的。从实际效果看,第二种模式比较切合实际,也易于操作。第三种模式容易出现问题,管理不跟上的话,很容易出现质量不能保证、进度无法控制的后果。
三、做好普查表抄录技术的培训是做好扫描工作的关键所在。
由于扫描识别技术是根据扫描进去的文字,与预先存在电脑里的字符模板进行比对,然后判断为某个字符。因此,对10个阿拉伯数字的标准写法有个清晰的认识是抄录好普查表的关键。要克服由于个人书写习惯带来的影响,让抄录员抄写的数字和文字能够顺利被识别,必须根据国家农普办下发的标准写法,有针对性地对普查表抄录人员进行培训,为抄录工作打好基础。
全市的培训工作按照分级负责的原则,市普查办负责培训县级专业骨干,县负责对乡镇抄录人员的培训,培训中着重强调注意事项和容易出现的问题,要特别强调纠正一些不适合光电录入的习惯写法。
四、加大审核力度,提高普查表质量是做好光电扫描工作的根本所在。
普查表的审核就是审核普查数据的逻辑关系,在开始录入前,首先要把好填写质量的审核关,尽量减少逻辑差错,减轻数据处理阶段的工作压力,提高工作效率。如果不把好审核关,数据处理阶段的审核、改错工作量将成倍增加。为了提高审核效果,我们一是加强审核知识的培训,培训审核内容、审核要点;二是加强检查力度,巡回检查各县的审核质量,确保审核工作到位。
五、掌握普查表扫描识别软件的特点,保证普查表的整齐、卷面整洁是做好农业普查光电录入工作的要害所在。
一要掌握普查表扫描识别软件的特点。不同的识别软件,各有其识别的特点。比如,本次识别软件要求数字不能写得太小,不然识别软件就会要求操作员对识别结果进行确认。特别是数字“0”和“1”,由于笔画简单,书写得比较小是很多人的习惯写法,我们在扫描过程中,就发现需要确认的“0”和“1”非常多。
因此,如果能在培训时强调一下这个问题,识别速度就会大大提高速度,可以减少操作员大量的确认工作量,提高录入速度。还有,书写“3”时,两个弯的弧度也不能写得太小,不然也很容易识别成“1”。
为了掌握识别软件的特点,我们专门对几十个抄录人员的习惯写法进行采样,并用本次普查识别软件进行识别,再对识别结果进行分析,总结出一些规律。
最后把哪些写法能够识别、哪些写法不能够识别或识别成其他数字的情况制作成教程挂到农业普查网上,供广大抄录人员学习、参考,以此增强识别效果,提高工作效率。二要保证普查表的整齐、卷面整洁。由于普查表在录入阶段要放在扫描仪上高速扫描,因此,普查表不能有弯折、污损,不然很容易造成卡纸等故障,大大降低扫描速度。
在试扫描阶段,我们就碰到过普查表因为有折痕或用订书机装订过而卡纸的现象,而且订书孔碰到定位格还会造成不能定位的现象。
对广大普查员和辅助调查员来说所以,光电扫描技术是一项非常新鲜的技术,他们对这项技术的理解几乎是空白的。有一些负责任的调查员,为了防止普查表的丢失或混乱,专门对同一户的普查表用订书机装订起来,殊不知这是扫描录入的大忌。
因此,为了保证普查表的整洁,最好为普查员统一配备用于上门调查的硬封面的资料袋,并在封面上统一印上注意事项,比如,可以印上“注意:普查表不能折叠、不能装订”、“不得使用钢笔、铅笔和圆珠笔”、“严禁使用涂改液或帖条”等字样,还可以在包装袋上印上10个阿拉伯数字和修订符号的标准写法。这样可以经常提醒广大普查员,那些事项需要注意,可以在很大程度上避免一些不该出现的问题。
六、配备强大的硬件设备是提高光电录入效率的有力保障所在。
本次普查光电录入与第五次人口普查光电录入最大的区别是本次增加了汉字的识别,因此,无论对机器还是对操作员,都提出了更高的要求。对机器设备来说,由于增加了对汉字的处理,扫描软件要在扫描时增加对汉字的切图,识别软件增加了汉字识别的,因此,机器的数据处理能力和存储器容量直接影响到扫描和识别的速度。
为此,全市市本级专门购置了一台配置双CPU、内存4GB的DELL高档服务器和2T容量的存储系统,用于担任市本级两台扫描仪的识别任务和数据存储。
在义乌市和东阳市两个扫描点,也购置了DELL高档服务器,用于承担普查扫描识别工作,其他不承担扫描任务的县(市、区),也都统一配置了专用服务器和一批PC机、打印机等设备,用于承担后期审核、改错等数据处理工作。
实践证明,这些服务器在本次普查的数据处理工作中,起到了相当大的作用,如果没有增加这些服务器,全市的普查扫描工作将会受到严重影响。全市共配备了4台光电扫描仪、4台服务器、近20台PC机用于本次光电录入工作。
同时,在光电录入过程中,我们觉得以下三个问题要引起高度重视:
一、关于定位块问题。由于本次扫描对定位块要求很高,定位块上有笔画画上去或有污点,就会造成普查表无法定位,进而造成整张表不能识别。由于普查在每张普查表上都设计了很多定位块,个别定位块上有笔画或污点,应该可以通过其他定位块的比对,通过一定的算法,去掉多出来的笔画货或污点来解决定位问题。
2000年第五次人口普查的普查表光电扫描工作,很少出现定位问题,就是因为识别软件的定位模块设计得要比本次普查的要好。由于定位问题造成整张表不能识别,已严重影响扫描工作进度。为此,必须降低对定位块的要求。
二、关于手写识别问题。手写识别技术发展到今天,应该是很成熟了,比如手机、掌上电脑都已经大量采用手写输入。而这次普查中,从数字的识别能力看,笔者觉得识别技术显得比较落后,识别软件对数字的书写要求过高,造成识别后待确认和修改的数据量较大,大大增加了人工修改、核实的操作工作量。
比如,数字写得太小(特别是数字“0”和“1”,由于笔画简单,大多数人都会写得比较小),识别软件已经正确识别出来,但是仍然要求操作员对识别结果进行确认,如果数字格子里面有个很小的污点,就会识别成其他数字。
如果能对识别软件加以改进,识别以前增加一个去污点的步骤,程序首先判断是否有污点(因为按照十个阿拉伯数字的标准写法,数字的笔画都连在一起,不存在独立的笔画,因此只要有独立的点、划都可以当作污点处理),如果里面有污点,先做处理,去掉污点,然后再进入识别阶段,这样可以大大提高识别率,减轻人工校对的强度。
三、关于其他若干问题。本次农业普查光电录入工作,需要改进的地方不少。如,地址码管理不灵活问题。在导入地址码前,必须手动清空系统里的地址库,像这种问题,程序完全可以做到在得到使用者的确认后,自动清空地址库,再执行导入操作;如,并发管理、系统算法优化不完善问题。
几个用户同时处理同一小区的数据时,会导致数据丢失,运行效率低下,这些问题都说明了软件开发者没有很好地对软件做系统全面的调试和优化;在扫描时,乡镇村没有做排序,查找小区很费时,这不仅是软件设计上的人性化问题,也影响了工作进度。
总之,普查数据录入采用光电扫描技术,与传统的人工录入相比,单纯从技术上来说,是一次进步,是先进的扫描、识别技术在统计工作中的应用。但也存在着很多缺点,比如需要配备大量的高速扫描仪,而且高价配置的高速扫描仪绝大部分成了一次性设备,扫描工作完成后,就成了一堆废铁。
如果采用手工录入,一台扫描仪的投入可以换成十二台PC机,这些PC机在完成普查数据处理工作后还可以继续为统计工作做贡献。采用光电扫描,对数据处理设备的存储容量、运算速度也提出了更高的要求,对普查表的填写也提出了更高的要求。
为了达到扫描工作要求,各地都投入了大量的人力和财力。因此,采用光电扫描的录入模式的总支出远远超出手工录入的支出,大大增加普查成本和地方负担。综合各方面的情况,我觉得是否采用光电录入的模式值得商榷。