知行编程网知行编程网  2022-12-28 22:00 知行编程网 隐藏边栏  4 
文章评分 0 次,平均分 0.0
导语: 本文主要介绍了关于python数据预处理的三种情况的相关知识,包括python 数据清洗,以及python范围缩放这些编程知识,希望对大家有参考作用。

python数据预处理三例


1、缺失数据的处理

导入数据丢失是经常发生的,最简单的处理方法就是删除丢失的数据行。在pandas中使用.dropna()删除有缺失值的行或列,也可以针对特定的列进行缺失值删除处理。

dfNew = dfData.dropna(axis = 0))  # 删除含有缺失值的行

有时候缺失值也会被填充或者替换,这里就不介绍了。


2、重复数据的处理

对于重复数据,通常会删除重复的行。 pandas中使用.duplicated()查询重复数据的内容,使用.drop_duplicated()删除重复数据,对指定数据列进行去重。

 dfNew = dfData.drop_duplicates(inplace=True)  # 删除重复的数据行


3、异常值处理

数据中可能包含异常值,即一个样本中的值与样本集中其他样本的观测值存在显着偏差,也称为异常值。可以通过箱形图、正态分布图或通过回归和聚类建模来识别异常值。

箱线图技术使用数据的分位数来识别异常值。箱线图分析也超出了本文的内容,无法详细介绍。只能笼统地说,通过观察箱线图,可以查看整体的异常情况,找出异常值。

    dfData.boxplot()  # 绘制箱形图


推荐操作环境:windows7系统、Python 3.9.1,DELL G3电脑。

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写
扫一扫二维码分享