根据最近的一项调查麦肯锡的调查在美国,只有16%的公司成功地将涉及深度学习技术的数据科学模型带过了试点阶段。原因之一可能是这些模型的绝对复杂性。单个、大型、复杂的模型很容易让数据科学家难以概念化和构建。此外,这些模型通常很难被项目经理有效地监督。

上述统计数据已经是一个令人信服的论据,可以让我们转向不那么复杂的数据科学模型。但如果这还不够,我们列出了以下5个原因,解释为什么数据科学应该采用更简单的模型。

  1. 可靠性

大型数据科学项目可以分解为子模型,这些子模型可以结合或堆叠。然后,公司可以执行上限分析,以确定最强和最弱的模型,并确定模型精度需要改进的地方。这种方法非常可靠,并确保数据科学团队能够有效地隔离和修复堆栈中最薄弱的部分。

  1. 问责制

简单、有效的知识转移对于构建和维护模型的数据科学家以及利用模型输出的业务方面的利益相关者至关重要。当使用简单的模型时,如果团队成员发生了变化或团队中有新的添加,就很容易指定和转移所有权。

  1. 可解释性

向技术、产品和业务团队传达来自数据科学模型的见解是数据科学家角色的核心部分。当使用简单模型的组合时,这项工作会成倍地简单。

此外,更容易确定在数据收集和细化中需要投资的资源在哪里,为进一步投资于模型构建创建清晰的路线图,并分配内部资源以根据模型输出的结果进行操作。

  1. 可持续性

使用多个简单模型可以大大简化模型性能的监控和维护。另一个好处是,如果查询中断或模型的一部分需要重新培训,其他模型可以继续产生业务输出。

  1. 执行权限

在模型的简单性和它的透明性之间有直接的关联。模型越透明,关键涉众就越有可能根据其结果采取行动,因为他们将对其范围和输出有良好定义的理解。

有关这些步骤以及为什么简单模型在解决复杂问题时如此有效的更多信息,请查看最近的这篇文章《福布斯》文章