案例报告 源头数据 数据质量提升的关键

源头数据 数据质量提升的关键

更新时间:2017-04-13 09:14:40    作者:周米    来源:大数据周刊    分享到:

大数据背景下,数据质量的提升,不仅包含数据准确性、一致性、完整性的核查和修复,同时包含数据的可理解性。影响数据质量的是那些有问题的数据,因此在进行数据质量提升前,必须分析问题数据的来源,并对问题数据进行一定归类处理。
问题数据的来源
问题数据的来源各种各样。例如数据缺少完整信息,缺乏标准的数据格式要求来保证用户输入的正确性,同时,在不同系统间将数据从一种格式转换成另一种格式时也可能造成数据错误。
一些问题数据容易辨别。比如缺失值,比如一些本该是数值型的数据却是文本型,甚至有些数据点的位置为N/A。但有些问题数据辨别起来却非常困难。例如建筑物的能耗值比同行业的能耗高10倍,是因为一个小数点的错误,而如果该建筑是数据中心,也可能本来就比同行业建筑能耗高出10倍。有些数据看似在合理范围内,但其实也是不正确数据。例如业主在输入数据时,对建筑群中所有建筑输入了同一个参数值。
问题数据的种类
掌握问题数据的种类是识别或修复问题数据的关键,问题数据的种类主要有以下几种:
1.单位不一致性问题。例如有的能耗数据的单位为千克标准煤每吨(kgce/t),有的能耗数据单位为千瓦时(kWh)。
2.类型错误的分类。例如将建筑冷藏类型分为非冷藏型,建筑为可通过开窗进行通风的类型分为不可通过开窗进行通风换气的类型。
3.错误数据。例如在统计年度能耗数据时,错误的统计成月度能耗数据。在统计建筑面积时统计了所有面积,而非能耗消耗的面积。
4.缺失值或0值。例如缺失建筑的建筑类型(办公、宾馆、饭店…)、建筑的楼宇面积等等,若在前期统计中,有的用户未填写这部分信息,那么在数据质量核查时就会发现这些数据缺失。
(5)字母代替数字。单位或其他特殊字符“100,000”或“10万m2”可能不符合数值数据形式的存储。
数据质量提升的必要性
在进行数据分析前对数据质量进行分析是非常重要的,主要因为以下几点:
1.问题数据会在分析中导致方差过大,同时会增加分析结果的不确定性。
2.问题数据会导致分析时得出错误结论。例如在对一个建筑的性能与其同行业建筑的性能对比的结果分析中,或在研究建筑历年的能耗变化趋势时,甚至在研究一个建筑运行水平的好坏时,问题数据都有可能导致错误的分析结果。
3.对于政府部门,问题数据导致分析结果的不确定性或错误结论,会直接影响政策的制定,可能会引发不良社会后果。
数据质量提升过程
数据质量提升的过程如下:
1.识别/修复不正确的数据类型:这类问题主要指的是数据格式不是数据规定的格式。例如有些数据在存储过程中把数值型数据以文本或其他格式存储,或有些文本格式数据以数值或其他格式存储。因此需要将这些不符合数据存储与分析要求的数据转换成标准数据格式。
这个过程的数据质量清洗具体包含3个步骤:
(1)识别和转换数据值到标准术语:主要因为我们的数据值不符合数据字典中指定的要求。例如,在分析建筑类型时,现存的建筑类型格式往往与要求的标准不一致。这种错误可能发生在数据传输时,从一个系统到另一个系统的数据移动,也可能发生在数据填报时,填报人对于填写要求的疏忽。如下图所示:
图1 数据清洗前后对比图
(2)将数据类型转换为标准数据类型:这是数据类型与预期数据类型不一致的地方。例如,文本代替一个数字,包括数据值以字符串/文本形式代替数字;数据不能用其他记录排序或分析。
(3)规范数据格式:数据格式在数据集的不同记录之间不一致。
2.识别/修复丢失或错误的值:主要是识别数据集中缺失的或明确错误的数据。几乎所有的数据集都包含有错误数据。错误的原因可能是由于数据输入,或系统采用默认值而非真实值,或者输入了不完整数据。
这个过程的数据质量清洗具体包含4个步骤:
(1) 定义数据清洗的字段(例如建筑使用功能、建筑面积、用能形式等)。
(2) 寻找可以通过其他方式补齐的缺失值,0值或“N/A”值。例如某栋建筑所属区县未填写,可以从历年的数据中去查找补齐。
(3) 标记可以通过额外调研研究后完善信息的数据。
(4) 剔除定义字段中有缺失的数据,保留在定义字段无缺失的数据。
3.识别/修复其他不一致:这一步涉及一个更深入的分析,以确定离群值和其他数据不一致。例如能耗统计数据虽然有,但与同行业相比异常的高或异常的低。 
这个过程的数据质量清洗具体包含3个步骤:
(1) 根据数据类型和理论实际制定数据的一个波动范围,规定数据处于波动范围内的为正常值,处于波动范围外的为异常值。
(2) 通过分布图判断异常值。如下图医疗建筑单耗的频率图,小于1或大于700kWh/m2的单耗是异常高或异常低的,会判别为异常值。
图2 数据异常值
(3)研究出现异常值的原因,排除这些原因后做进一步的分析。
4.检查并修复保证数据内部一致性:在剔除修复异常值后,就是做数据一致性判别。这个过程主要指数据与历史数据相对比是否具有一致性。在历史数据值的情况下,随着时间的推移是否是一致的,并结合实际判断数据不一致的原因。如下图是三栋建筑2013年至2015年的单耗值,
图3 能耗数据的历年变化趋势
大数据时代,数据质量的提升有其必要性,数据质量提升的过程,也是提升数据价值的过程。通过数据质量的提升,能够减少错误结论,提高未来预测的准确性。
标签
源头数据 | 数据质量 | 数据格式