浅论审计工作中的电子数据质量
摘要:电子数据作为审计过程的基础依据,它的质量影响着整体的审计质量,因此,在审计实务中需要对取得的电子数据的质量进行正确评价和合理提升。本文首先讨论数据质量的评价指标和评价方法,然后对常见的引起数据质量低下的原因进行分析,并提出提升数据质量的措施。
计算机业有一句名言:“garbage in,garbage out(无用信息输入,无用信息输出)”,说的是信息系统只能对有意义的输入资料进行处理,产生有意义的输出,无法依赖于错误数据得出正确结果。其实这句话也非常恰当的描述了审计工作中电子数据质量的重要性,如果我们在审计过程中使用的是质量低下的电子数据(简称数据),那么依据这些数据得到的审计成果就很难有较高的质量。数据作为审计过程中的基础依据,其质量成为影响审计质量的一个重要因素。要保证审计质量,就必须确保所取得的数据真实可靠,能够准确地反映被审计单位的实际情况。这就要求在取得电子数据后对其质量进行评价和提升。下面,本文从数据质量的评价指标、数据质量的评价方法、数据质量低下的原因分析和提升数据质量的措施四个方面,来讨论审计工作中的数据质量。
数据质量的评价指标
数据质量的评价指标根据行业不同有很多划分方法,在审计工作中主要关注真实性、完整性、一致性、自治性和可用性五个指标。这五个指标并不是按照体系严格划分的,只是在审计工作中需要关注的几个方面,它们之间相互影响并在一定程度上存在交织和重叠。
真实性,指数据必须真实、准确的反映实际发生的业务。有两点需要关注,一是真实,二是准确。真实是指数据中记录的业务必须是真实发生的。准确是指数据对业务的重要属性表述明确,无歧义,不含糊,能够准确的描述所记录的业务。
完整性,可以从两方面解释,纵向上是指数据无重复或缺失,发生的业务没有被重复记录或遗漏;横向上指数据中关键属性无缺失,能够完整的描述所记录的业务。
一致性,指相关联的各个数据在逻辑上是一致的。其包括概念一致性、值域一致性和格式一致性三个子指标。概念一致性是指在不同的数据中,同一概念所指的事物是相同的。比如价格这个概念,在采购数据和销售数据里可能不一致,一个代表采购价格,另一个代表销售价格。值域一致性是指同一概念的值域范围在不同的数据中是相同的。如一个大型单位的财务数据中,一些二级单位的财务系统每年设置13个会计期间,而其余二级单位设12个会计期间,当这些数据合并到一起时,就出现了会计期间这个概念的值域不一致。格式的一致性比较好理解,是指同一概念在不同数据中表达方式是一致的。最常见的是日期/时间类型,可能是在部分数据里用标准的date类型,而在另一些数据通过字符串来表示。
自治性,指数据内部必须满足特定的约束。数据并不是孤立存在的,数据之间往往存在着各种各样的约束,这些约束描述了数据的关联关系。数据必须能够满足相互间的关联关系,而不能够相互矛盾。比如,科目余额数据中有科目年借方发生额这个属性,该属性的数值从理论上来说应该等于凭证数据中该科目的借方发生额的合计值,不能出现不一致的情况。
可用性,指数据的可利用程度。可用性又可以分为几个子指标,其中最主要的是可理解性。数据要有容易理解的存储格式,才能被审计人员正确理解、合理利用。比如对普通的审计人员来说,中文字段名称比英文字段名称、英文字段名称比字母编号的字段名称要容易理解。
数据质量的评价方法
当评价指标确立之后,就可以开始对数据质量进行评价,常用的评价方法主要有自动检测评价和人工检测评价两种。
自动检测评价方法,是利用专业的计算机软件或编写检测程序,来自动检测数据在各个评价指标上的质量情况,依据检测结果评价数据质量并确定影响质量的关键因素。
人工检测评价方法,指借助于计算机等工具辅助或直接用肉眼检测数据,并依据检测结果评价数据质量。
在实际工作中,往往是数据量庞大,结构复杂,要完整的评价数据质量相当困难。因此,审计中通常是利用随机抽样方法对数据进行抽样,再通过自动检测评价或人工检测评价,以便利用最小的成本得到接近于真实的检测评价结果。
数据质量低下的原因分析
在对数据质量进行评价后,如果数据的质量不能满足审计工作需要,就要分析引起质量低下的原因,常见的原因主要有以下几种。
一是由于系统开发和审计行为的出发点不同而引入的固有缺陷。被审计单位在开发信息系统时,会尽量将数据库设计为较高的范式,以便在系统使用过程中减少数据冗余、保持数据一致和防止数据丢失;或在设计时采取了一定加密措施,屏蔽数据库结构来满足数据保密要求。而审计过程中为方便使用需要较低范式和清晰明了的数据库。如果取得的数据不经处理直接在审计中使用,会使其可用性大打折扣。
二是被审计单位信息系统存在缺陷。信息系统由于开发过程中受需求定义、开发方式等因素的影响,使得系统产生的数据在完整性、自治性等方面出现质量低下的情况。
三是不当的数据下载转换。我们下载数据时,由于下载方法的不当和手工操作中的疏忽等原因,会丢失或者遗漏部分数据;数据转换过程也会由于格式不一致等原因而丢失部分信息或对数据造成破坏。这就影响到数据的完整性和自治性。
四是不当的数据合并。我们在审计工作的得到的电子数据大多是来自不同系统的,以财务系统为基础,涉及生产、销售等系统。各个系统大部分是分别开发的,未经选择、处理就将这些数据合并,会使合并后的数据在一致性、自治性等方面存在一定问题。
提升数据质量的措施
明确了数据质量低下的原因,就需要采取措施提升数据质量来达到工作要求,常用的方法有转换和清洗两种。
转换,是利用专用软件、SQL语句或编写程序,对数据的存储格式、类型、值域和特殊值等进行转换,提升其一致性和可用性。
清洗,则是利用SQL语句、编写程序或人工操作,对冲突数据进行选择,对冗余数据进行清理,对缺失数据进行修补,来提升数据的自治性、可用性和完整性。当数据内部出现不自治时,需要我们在几个互相冲突的数据间作出选择,选择出正确的数据来利用,这就是冲突数据的选择。当数据出现大量无用数据时,容易分散审计人员的精力和干扰职业判断,对其进行清理可以提升数据可用性。对缺失数据进行修补是指当数据中缺少关键属性,导致其无法被正确利用时,需要对这部分数据进行修补来提升数据的完整性。
进行审计实务中的数据转换和清理,需要审计人员掌握精深的与被审计单位相关领域的专业知识和计算机技术水平才能熟练驾驭。因本文主题所限,在此不做深论。
数据质量是一个专业而深奥的论题。上述仅做浅显讨论,如何合理的评价和提升数据质量还需要在工作中进一步研究和实践。