什么是脏数据?干货 | 怎样用箱形图分析异常值?终于有人讲明白了_百度知...

发布网友发布时间：10小时前

共1个回答

热心网友时间：8小时前

数据质量分析是数据挖掘中数据准备过程的重要一环，是数据预处理的前提，也是数据挖掘分析结论有效性和准确性的基础。数据质量分析的主要任务是检查原始数据中是否存在脏数据。脏数据是指不符合要求以及不能直接进行相应分析的数据，常见于数据挖掘工作，包括缺失值、异常值、不一致的值、重复数据及含有特殊符号的数据。

本文将对数据中的缺失值、异常值和一致性进行分析。缺失值分析主要关注缺失值产生的原因及其对分析结果的影响，分析主要分为两方面进行。异常值分析则聚焦于检验数据是否有录入错误或不合常理的数据，重视异常值的分析往往能成为发现问题进而改进决策的契机。异常值分析通常包括简单统计量分析和3σ原则，以及箱型图分析。

箱型图提供了一种识别异常值的标准，定义异常值为小于QL-1.5IQR或大于QU+1.5IQR的值，其中QL和QU分别为下四分位数和上四分位数，IQR为四分位距。箱型图直观展示了数据分布的本来面貌，具有鲁棒性，不会因少数极端值影响四分位数的稳定性。在箱型图中，超过上下界的值通常被视为异常值。

以餐饮系统中的销量数据为例，分析日销额数据时，可能会发现部分数据缺失，人工分辨不切实际，此时需要编写程序来检测缺失值和异常值。在Python的pandas库中，使用describe()方法可以查看数据的基本情况，包括平均值、标准差、最小值、最大值以及分位数。箱型图则可以更直观地展示这些数据并检测异常值，通过编写Python代码可以得到箱型图，进而识别异常值并进行后续处理。

数据不一致性是指数据的矛盾性或不相容性，可能在数据集成过程中产生，例如，来自不同数据源的数据未保持一致更新，导致同一信息在不同表中存在差异。在数据挖掘过程中，处理不一致数据可避免产生与实际不符的挖掘结果。

全部栏目

什么是脏数据?干货 | 怎样用箱形图分析异常值?终于有人讲明白了_百度知...