您现在的位置:   首页 >> 新闻中心 >> 数据分析

生产环境又有问题?都是脏数据惹的祸!

发布人:www.yunke.ai 发布时间:2021-01-01 160 次浏览

本文笔者对脏数据的来源、脏数据的危害、脏数据的预防、如何对已出现的脏数据进行处理等问题进行详细阐述。

“小光,今天那个诡异的生产环境问题找到原因了吗?”

“还是数据问题!之前做的一个功能有一部分数据迁移工作没有做好,导致生产环境有脏数据,委托人的联系人已经不为该委托人服务了,应该移除掉的……”

“又是脏数据……”

“嗯,好在不是代码问题。”

这是在蓝鲸项目发生的真实对话。其中提到的脏数据(Dirty data),也叫坏数据(Bad data),通常是指跟期待的数据不一样、会影响系统正常行为的数据。

蓝鲸项目的QA会定期分析生产环境的缺陷,当定位某个缺陷为脏数据引起之后,往往就到此为止了。

生产环境下的缺陷分析流程是这样的:

都是脏数据惹的祸

调查分析生产环境缺陷,到*后定位是数据问题的时候,总是让人浑身轻松……于是,“脏数据”就跟测试的“随机挂”一样,成为了光荣的“背锅侠”!

脏数据 ≠ 代码问题,真的是这样吗?先来深入了解一下脏数据。

脏数据是怎么回事?

脏数据产生的原因多种多样,有的甚至很难解释清楚到底发生了什么……

通常,以下原因可能造成脏数据:

  1. 脏读:读了事务处理中间状态的数据
  2. 重复插入了相同的数据:多次点击同一个按钮导致
  3. 不能为空的字段存为空:数据库字段没有验证,或者对于历史数据没有做好迁移处理
  4. 人工录入不合法的数据:比如电话号码含有特殊字符
  5. 运行SQL脚本插入了不合法数据:比如不同实体id搞混等
  6. 存入了多余的空格
  7. 测试环境可能由于部署了半成品产生一些不合法数据
  8. ……

因此,脏数据跟代码有关,脏数据的产生是因为没有做好防御工作!

脏数据有哪些危害?

根据不同的系统、不同的业务,脏数据带来的危害也会不一样。

  • 脏读产生的数据往往是错误的,导致数据不真实性,或者数据的不一致性;
  • 重复和其他不合法数据则可能导致系统行为的不正常,有时候还可能导致非常严重的故障,甚至有些没有暴露的脏数据可能带来不可预知的致命错误,危害可能是相当大的。

脏数据带来的危害很难估量,有很大的不可预测性,对于脏数据的预防至关重要。

那么,如何能够防范于未然呢?

如何预防脏数据的产生?

尝试对脏数据引起的生产环境缺陷做进一步分析,总结出脏数据的几种类型,可以在敏捷软件开发生命周期的不同阶段对其进行防御。

都是脏数据惹的祸