导语:
本文主要介绍了关于python数据预处理的三种情况的相关知识,包括python 数据清洗,以及python范围缩放这些编程知识,希望对大家有参考作用。
1、缺失数据的处理
导入数据丢失是经常发生的,最简单的处理方法就是删除丢失的数据行。在pandas中使用.dropna()删除有缺失值的行或列,也可以针对特定的列进行缺失值删除处理。
dfNew = dfData.dropna(axis = 0)) # 删除含有缺失值的行
有时候缺失值也会被填充或者替换,这里就不介绍了。
2、重复数据的处理
对于重复数据,通常会删除重复的行。 pandas中使用.duplicated()查询重复数据的内容,使用.drop_duplicated()删除重复数据,对指定数据列进行去重。
dfNew = dfData.drop_duplicates(inplace=True) # 删除重复的数据行
3、异常值处理
数据中可能包含异常值,即一个样本中的值与样本集中其他样本的观测值存在显着偏差,也称为异常值。可以通过箱形图、正态分布图或通过回归和聚类建模来识别异常值。
箱线图技术使用数据的分位数来识别异常值。箱线图分析也超出了本文的内容,无法详细介绍。只能笼统地说,通过观察箱线图,可以查看整体的异常情况,找出异常值。
dfData.boxplot() # 绘制箱形图
推荐操作环境:windows7系统、Python 3.9.1,DELL G3电脑。
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ 最全面的12种Python学习方法12/30
- ♥ python包位于哪个文件夹中?09/10
- ♥ Python如何自定义类继承threading.Thread12/27
- ♥ Python多线程死锁问题处理10/26
- ♥ Python实用:用xlwt设置表格列宽和行高09/16
- ♥ python中的numpy数组是什么?11/11
内容反馈