信息周刊的丽莎·摩根最近报道写了传统上,商业专业人士用具体的术语,有时甚至是整数来看待世界。与数据科学产生的灰色阴影相比,遗留问题的观点是非黑即白的。不是产生一个单一的数字结果,例如40%,结果是概率性的,结合了置信水平和误差幅度。或者,更简洁地说,数据科学不是一门精确的科学。

造成这种情况的原因有很多,包括:

的数据

公司可能没有回答某个特定问题所需的所有数据。即使有完整的数据集,如果数据质量有任何问题,那么很有可能分析是有偏差的。这强调了投资于一个坚实的基础平台的重要性,该平台可以解决数据质量问题,并确保外部和内部数据是干净的、一致的,并准备好产生理想的结果。

这个问题

正如摩根所说,“有人说,如果想要更好的答案,就应该提出更好的问题。”更好的问题来自与领域专家一起工作的数据科学家。预先存在的假设、可用的资源、约束条件、目标和成功度量标准是影响如何提出问题以及结果答案的其他考虑因素。

期望

在这个领域工作的人都知道,数据科学、机器学习和人工智能都有很大的局限性。而那些远离日常生活的人通常会有不同的观点,而这些不切实际的期望往往会带来挑战。

上下文

上下文在分析活动的成功或失败中扮演着重要的角色——模型可能在一个场景中工作得很好,但在另一个场景中却产生令人失望的结果。Morgan说:“即使在同一个用例中,预测模型也可能不准确。例如,基于历史数据的流失模型可能会更重视最近的购买,而不是更早的购买,反之亦然。”

标签

图像识别由标签数据推动,但标记所有内容并不总是那么容易。图像分类会因文化差异、社会规范和时事而有所不同。摩根阐述”,同样,如果训练神经网络预测图像来自手机的类型,如果它一直在训练有素的歌曲和照片从一个iOS手机,它无法预测相同类型的内容来自一个Android设备,反之亦然。”

这些变量使得我们很难得到绝对的答案,但正如Morgan指出的,这并不一定是件坏事。看看她全部在这里阅读更多。