一、数据质量的几个要素
近年来,随着信息化建设和应用的深入,数据作为信息化建设和应用的主体,其质量和时效性已经越来越受到各方面的广泛关注。为了在现代企业的竞争中处于优势地位,几乎所有的国内外大公司都对数据建设和应用进行了重点投入,目的就是能够拥有丰富、准确、及时、有效的数据资源。对数据的大量占有和分析,是有效开展生产管理和辅助决策分析的依据,是实现企业高速发展的重要保障。数据就是资产、数据就是财富,这一理念已经深入人心。
近年,国内各个油田陆续加大了对企业信息化的投入,企业的信息化水平整体上都有了很大发展,各种数据源源不断地汇集到数据库中。如何使这些数据在生产管理、科学研究、企业决策中发挥应有作用,使用户能用、用户敢用、用户愿用,使数据真正为企业服务,这是几乎所有油田都在思考的问题。
数据是否可用和可信,这是用户对数据比较关心的两个层面。是否可用是指数据的格式、内容等能否被用户读取和使用,能不能很方便地进行深入处理和分析。是否可信则是指数据在适用性、准确性、完整性、及时性和有效性方面,是否满足用户的应用要求。以上两个层面中,可用是技术层面的问题,只要通过技术手段使数据规范化、格式化,按照规定要求组织和存放,数据就能达到可用,这方面相对而言比较容易满足用户要求。而可信是数据的质量问题,数据质量的保证涉及多方面的要素,需要通过采取管理手段、技术手段等各方面的努力来解决。
随着信息应用的深入,数据质量问题已经成为信息化应用中的头等大事,为解决数据质量问题,各种管理手段、技术手段和新的数据质检体系不断被应用在数据的采集和加工过程中,专业的数据监督已经作为企业中的一个专职岗位出现,在这一方面,新疆油田进行了非常有益的尝试,并取得了可喜的效果。
数据监督工作究竟监督什么呢?明确地说,就是监督数据的质量。在今天,数据质量不仅仅是指数据的准确性和完整性,而是包括多个方面。要监督好数据质量,就必须对数据质量要素有完整的了解。
一、数据质量的几个要素
数据作为信息化应用的主体,它具有多重属性,不仅有适用性、准确性、完整性、及时性、有效性等质量特性,还具有可取得性、可衔接性、可解释性、客观性、专业性、可比性等非质量的应用属性。要对数据质量进行较好地控制,就必须对数据的五个质量特性进行很好了解,从而在各个方面采取措施,杜绝数据质量问题的出现,使数据监督工作能够真正达到控制数据质量的目的,以下就对数据的五个质量特性进行一一介绍。
1.数据的适用性
在油田生产过程中,会产生大量的各类数据,这些数据有生产动态信息等反应不断变化的数量型数据,也有设备参数信息等相对稳定的属性信息。这些数据有的是为生产管理和决策服务的,有的则是满足各级科研和分析的需求,这就从客观上造成数据的多样化,同时也是为满足不同专业、不同岗位的用户服务的。不同的数据具有不同的使用范围,每个数据的正确性都要求它是进入正确的专业应用,换句话说:无论多么准确、及时的数据,如果不具有适用性,它就不能产生任何效益,甚至用户使用之后会造成损失。
数据的适用性往往不能引起重视,偶尔也有可能见到把钻井参数录入到测井数据表中的情况,这就是典型数据适用性错误的结果。
2.数据的准确性
数据的准确性一般是说数据测量值与真实值相比的符合情况,但在油田生产数据的采集和加工处理过程中,数据的准确性往往变成是指所采集入库的数据值与现场应采集记录的正确值之间的差异。在数据监督和质量控制的过程中,准确性越好的数据,其误差应该越小。
影响数据准确性的因素很多,数据误差在数据采集、审核、录入、传输和处理等的各个环节都可能产生。我们需要从各个方面分析影响数据准确性的因素,同时有效控制不同类型数据的合理变化范围,将数据误差控制在尽可能理想的范围内,以保证数据的准确性。
3.数据的及时性
在油田日常数据的管理中,往往要求能够更快、更准地收集到所需的数据。在日常生活中,也有“时间就是金钱”的说法。把这些要求应用到数据上,那就是说数据也必须要有及时性。比如对于井的生产数据,如果一口井发生故障,导致抽油机停止了,但在数据上如果不能及时有效获得井已停的信息,那么拿在手里的井运行数据就没有任何及时性,也是毫无意义的。
一个好的应用系统在使用数据时不仅要求数据的适用性还必须考虑数据的及时性,应用系统引入生产管理的主要目的是提高工作效率,把大量复杂、繁重的重复计算、统计、分类工作交由计算机处理并迅速得出准确结果。如果数据不及时,那么应用系统的处理结果就可能违背了程序设计和使用者的初衷,不仅无法提高工作效率,还可能由于数据滞后而影响生产的正常化。因此根据数据应用需求及时采集数据,按照用户要求及时发布数据,是保证数据及时性的重要一环。
4.数据的完整性
数据的完整性相对于准确性和及时性来说并不显得那么重要,但其实它引起的问题并不比前两者轻松。数据的完整性就是我们日常所说“数据齐、全、准”当中的“全”。
在数据采集过程中,要把所需信息全部采集完整,比如压力,如果只记录一个数字“2”,谁也不知道这个数字是什么东西,也就是说这个数字采集得不全。如果记录成“1号井油压为2兆帕”,那么这个数据就完整了,对生产管理和分析才有意义。
从这里可以看出,数据的完整性一点也不亚于准确性的重要程度,在数据表格、数据库充分应用的情况,对数字的规范化填写要求越来越完善,单独强调数据完整性的情况会越来越少。
5.数据的有效性
在解决好数据适用性、准确性、及时性、完整性的情况,需要考虑数据的有效性。对于一个及时采集获得,准确、及时、完整的数据,还需要考虑这个数据使用的时间和对象。一堆过期的数据无异于废品或垃圾,是不产生价值的,因此在使用数据时,要考虑它是否有效。
举一个简单的例子,我们在3年前采集了某口油井的日生产数据,记录了当日各项生产参数,而该井现在已经转为一口水井了,那么我们拿着这一堆数据来管理这口井,还有效没有呢?这是显而易见的,这很好地说明了数据的有效性问题。
数据除拥有以上的质量特性之外,还具有可取得性、可衔接性、可解释性、客观性、专业性、可比性等非质量的属性特性,这些属性特性对于数据的质量控制并不产生重大影响,因此也不在我们这里的数据监督和质量控制讨论范围之列。
网友评论