当我们在对大量的数据进行清理或者是转换的时候,难免会操作数据的缺失或者是有重复的值出现,又或者是出现异常的情况,难免面对这些问题该如何解决呢,下面带大家一起学习关于“Python数据预处理有哪几种情况?Python常见的数据预处理方法”的文章。

Python数据预处理有哪几种情况?Python常见的数据预处理方法

Python数据预处理,可以分成以下三种情况:

1、缺失数据的处理

在处理大量的数据的时候,导入数据时有些数据缺失了是一种经常发生的事情,最简单的操作方法就是将缺失的那一块数据删除,删除的是缺失数据的数据行,需要使用到的是pandas 中的.dropna()方法,不仅可删除存在着缺失值的行列,还可以对指定的列进缺失值的处理。举个例子:

dfNew = dfData.dropna(axis = 0))

这一段代码是对含有缺失值的行进行清除。

2、重复数据的处理

当数据中出现了一些重复的数据使,也可以采用删除重复行的操作,将一些多余的数据清除了,实现的方法是,首先对数据进行查看,找到有哪些重复的数据内容,采用的方式是pandas中的.duplicated()方法,然后再对这些重复发数据进行删除时,使用的方法是.drop_duplicated(),当然也可以对指定的数据列去重。举个例子:

 dfNew = dfData.drop_duplicates(inplace=True)   删除重复的数据行

3、异常值处理

异常的值出现,就表示一个样本中的数值和之前的需要的数值存在着一定的偏差,想要对异常值进行识别的话,我们可以通过两种图来进行操作,分别是:箱线图、正态分布图,还有其他的方式可以识别这里主要说的是箱线图技术,它可以查看整体的异常情况,进而发现异常值。绘制箱型图的方法如下:

dfData.boxplot()  # 绘制箱形图

有关“Python数据预处理有哪几种情况?Python常见的数据预处理方法”的文章就分享到这里了,如果还想学习其他的Python知识,可以继续关注了解哦。

更多python相关文章请访问分类:python

【版权声明】本文图文出自大盘站@dapan.cc,转载请注明出处!