在最近的一次福布斯文章,Adrian Bridgwater使用了一个有趣的类比来研究“脏数据”的挑战。他将数据清理比作洗衣服,他认为数据通常会被应用程序数据仓库、繁琐的手动工作流程、,以及断章取义的信息,所有这些都需要将其放入“企业洗衣房”

正如TIBCO的全球首席技术官Nelson Petracek对Bridgwater所说,“数据……经历了无数个周期,比如说清洗周期来继续这个类比。首先,就像污点一样,处理脏数据通常更容易接近其来源,或者在创建脏数据之后。”Petracek接着更深入地解释了处理脏数据的最佳方法,下面我们为您详细介绍了这些方法:

对边缘的数据污点进行预处理

Petracek强调,随着物联网(IoT)设备和远程数据采集的普及,在其产生的源头处理脏数据将变得越来越重要。公司不应该等到脏数据返回组织,而应该在生成后立即清理干净,以免影响下游存储系统或应用程序。边缘分析、在边缘应用人工智能(AI)和机器学习(ML)以及数据转换和过滤是公司在任何其他组件与数据交互之前可以采取的清理和丰富数据的行动。

速度系数

影响脏数据的另一个因素是速度,因为数据生成的速度会影响组织处理脏数据的方式。例如,在网络级别处理脏数据需要高速处理信息的能力。从IOT设备或存储在数据湖中的批次数据的流数据同样需要定制的方法,这就是为什么考虑速度因子和脏数据将被处理的位置是如此重要的原因。如果以错误的速度或位置应用一种方法,数据质量不太可能得到改善,但很有可能性能或其他方面会受到影响。正如佩特拉切克简洁地说,“把洗衣机放在‘高’的位置,里面放一堆跑鞋,看看会发生什么。”

考虑数据的特点

数据可以来自原始数据源,也可以与其他数据源一起丰富,或者与其他数据集合并。这些因素和其他因素影响数据质量,因此从技术和业务的角度考虑数据的特性是至关重要的。Petracek提出的一种方法是思考组织中还有谁使用了这些数据来做出业务决策,以及这些操作的结果是什么。

要想了解更多关于上述内容以及消除不干净数据和给人清新干净感觉的其他考虑因素,请查看福布斯的文章在这里.