数据异常分析,是数据分析工作中最常见且重要的分析主题,本文总结了数据分析的一般过程和方法,希望后续的分析在此基础上不断优化。
一、背景
数据异常分析,是数据分析工作中最常见且重要的分析主题,通过一次次的异常分析来明确造成数据波动的原因,建立日常的的运营工作和数据波动之间的相关性以及贡献程度的概念,从而找到促进数据增长的途径,改变数据结果。

本文总结了数据分析的一般过程和方法,希望后续的分析在此基础上不断优化。
二、问题界定
收集到的数据分析需求可能是类似于转化率最近在下降,询盘量有点上升。这种描述,其实并没有把问题界定与描述清楚。首要便是对数据波动进行界定,如果问题没有界定清楚,后续的数据分析也就失去了价值。
问题界定需要解决以下疑问,判断数据波动是否为异常?异常的范围、波动的程度,是否需要深入分析?
数据异常判定的理论基础如下:假设指标服从均值为μ和标准差δ的正态分布,处于(负无穷大, μ-3σ] 和[μ+3σ, 正无穷)范围时,样本的概率为0.26%,这是一个小概率事件,我们称其为3倍标准差下的异常点。

正态分布图
如果指标的样本数据为k 个,并记录为x1,x2,x3,…,xk,则阈值的计算步骤如下:
- 计算指标平均值,公式如下:x =Σxi/k;
- 计算样本的移动极差,公式如下:MR=|Xi-Xi-1|;
- 计算移动极差均值(k 个样本数据产生k-1 个移动极差),公式如下:MR =ΣMRi/k-1;
- 计算CL,公式如下:CL = x;
- 计算UCL 和LCL(在3 倍标准差情况下)。公式如下:UCL= x +3×MR/d2;LCL= x -3×MR/d2,其中d2 等于1.128。
超过UCL和LCL的则为异常,如果数据有明显的周期性和季节性,需去除相关因素之后再利用以上办法计算阈值。
三、问题分析
分析方法为基准对比分析,选取数据变化前后可对比的时间段进行对比。
闽ICP备13000641号-4