当你花点时间停下来看看实际数据时,你会发现随着技术的进步,累积的数据量是惊人的。根据IDC的全球数据圈预测2021-2025那自去年以来,企业和消费者数据一直以23%的复合年增长率增长。与此同时,在云端创建的数据以每年36%的速度增长,在云端边缘收集的数据以每年33%的速度增长,到2025年将占全球数据圈的22%。
随着数据的体积和复杂性的增加,使这些信息具备计算能力和分析能力的任务也在增加。使这一挑战更加复杂的是,尽管许多公司正在收集更多的数据,但开发统一数据并使其易于访问和操作的有效数据管理流程所花费的时间却更少。
传统的数据管理方法是基于提取、转换、加载(Extract, Transform, Load, ETL)方法——从多个来源提取信息,通过ETL服务器将其转换为特定的格式,然后装入数据仓库进行分析。这个过程通常很复杂,计算量很大,以输入/输出(I/O)活动、字符串处理和数据解析的形式消耗大量时间。
最近CIO文章认为更好的框架是将缩略词重新排序为ELT,从数据提取开始,然后将信息加载到特定的数据存储库中,然后将其转换为更有用和相关的形式。使用这种方法,数据转换职责发生在单个基于云的数据仓库中,而不是依赖单个ETL引擎或服务器来转换所有结构化和非结构化信息。
除了减少I / O时间和超速解析之外,该方法还为更全面的数据管理策略奠定了更全面的数据管理策略,这些框架消除了数据采集和交付洞察之间的时间。根据CIO件,关键考虑因素包括:
- 底层功能的实现,包括连接器、事件流、源回写和MapReduce。
- 可以从各种来源爬网和检索数据的发现和自学习引擎,不断适应业务需求并摄取适量的计算就绪数据。
- 包含数据结构和持久性抽象以符合数据隐私规则。
通过整体数据量,数据源的数量和数据复杂性只能大气到成长,没有时间像现在一样重新进入你的数据管理策略来反映现代数据景观。
要了解有关如何最好地接近重新思考您的数据管理策略,请查看完整CIO的文章。