信用卡欺诈数据的分析-excel篇-数据分析-优客工作手机-外呼系统软件-AI电销机器人-微信SCRM系统-SIP通讯线路|优客AI为销售管理以及客户安数据安全而生

本篇文章为大家提供了数据集分析的思路和步骤，同时也分享了自己的经验。

一、背景

反欺诈是一项识别服务，是对交易诈骗、网络诈骗、电话诈骗、盗卡盗号等行为的一项风险识别。其核心是通过大数据的收集、分析和处理，建立反欺诈信用评分和反欺诈模型，解决不同场景中的风险问题。

国内常见的提供反欺诈服务的公司有：同盾科技，百融金服，众安保险的Xmodel，腾讯的天御借贷反欺诈AF，阿里云的云盾，蚂蚁金服的蚁盾；模式多为Sass服务，产品形态为客户端控制台+服务端调用反欺诈API。

数据样本为2013年9月欧洲持卡人在两天内进行的284,808笔信用卡交易，其中493笔是欺诈交易。数据集非常不平衡，被盗刷占所有交易的0.173％。

它只包含作为PCA转换结果的数字输入变量。不幸的是，由于保密问题，我们无法提供有关数据的原始功能和更多背景信息。

特征V1，V2，… V28是使用PCA获得的主要组件，没有用PCA转换的唯一特征是“时间”和“量”。

特征“时间”包含数据集中每个事务和第一个事务之间经过的秒数。特征“金额”是交易金额，此特征可用于实例依赖的成本认知学习。特征“类”是响应变量，如果发生被盗刷，则取值1，否则为0。

包含：Time（交易时间，需将s转化为hh-mm-ss形式），V1~V28（经PCA转换后的数字变量），Amount（交易金额），Class（交易类型，1为欺诈，0为正常）

在已知欺诈交易和非欺诈交易的情况下，分析两类的交易指标的四分位数、**值、最小值、标准差、方差；四分位数和**最小值可以绘制出该指标的箱线图，找出离群点，也可以观察出该指标中数据的离散程度；

通过方差观察该指标数据的稳定程度，通过标准差观察该指标数据的偏离程度，一般都应符合正态分布；做出图形后，观察欺诈交易在图形中的分布；

通过时间分析，寻找欺诈交易在哪些时间点发生的概率更高；

通过金额分析，寻找欺诈交易金额在哪个区间范围内概率更高，对比非欺诈交易金额的区间范围i；

通过对V1~V28的分析，寻找该字段下欺诈交易与非欺诈交易各自的规则；

通过以上的分析，寻找欺诈交易和非欺诈交易的各自特性，当有新的一笔交易进入时，判断其属于哪一类的概率更高；

由于数据集受限，如果能对单个交易账户分析，在数据中增加交易地点、交易商户类别、交易频率的指标都可以使得分析更全面。

第一步：检查数据，是否有缺失值，数据类型是否符合将要进行的分析，结果为无缺失值，同时将欺诈交易与正常交易区分为两个工作表，方便后面分析；数据总计为28.4万条；

第二步：将时间换算为小时，总计为48小时，以1小时为间隔进行分组；