数据清洗是进行数据分析和利用数据训练模型的必由之路,也是数据科学家/程序员最耗费精力的地方。
这些数据清洗的代码有两个好处:一是用函数写的,不用改参数就可以直接使用。第二个很简单,加上最长的评论只有11行。
在介绍每段代码的时候,都会给出目的,代码中也会给出注释。
你可以将本文加入书签并将其用作工具箱。
涵盖8大场景的数据清洗代码
这些数据清洗代码,一共涵盖8个场景,分别是:
删除多列、更改数据类型、将分类变量转换为数值变量、检查缺失数据、删除列中的字符串、删除列中的空格、用字符串连接两列(带条件)、转换时间戳(从字符串到日期时间格式)
删除多列
在进行数据分析时,并非所有的列都有用,用df.drop可以方便地删除你指定的列。
转换数据类型
当数据集变大时,需要转换数据类型以节省内存。
将分类变量转换为数值变量
某些机器学习模型要求变量采用数字格式。这需要先将分类变量转换为数值变量。同时,你还可以保留分类变量以进行数据可视化。
检查缺失数据
如果要检查每列缺失数据的数量,使用下面的代码是最快的方法。它可以让你更好地了解哪些列有更多的缺失数据,从而确定如何进行下一步的数据清洗和分析。
删除列中的字符串
有时,字符串列中会出现新的字符或其他奇怪的符号,使用df['col_1'].replace即可轻松处理。
删除列中的空格
当数据混乱时,任何事情都可能发生。字符串的开头经常有一些空格。在删除列中字符串开头的空格时,下面的代码非常有效。
用字符串连接两列(带条件)
当你想要有条件地将两列与字符串连接在一起时,此代码很有用。例如,你可以在第一列的末尾设置某些字母,并使用它们连接到第二列。
如果需要,也可以在连接完成后删除末尾的字母。
转换时间戳(从字符串到日期时间格式)
在处理时间序列数据时,我们很可能会遇到字符串格式的时间戳列。
这意味着将字符串格式转换为日期时间格式(或我们根据需要指定的任何其他格式)以便对数据进行有意义的分析。
python学习网,大量的免费
,欢迎在线学习!
本文转自:https://www.jianshu.com/p/b78affa1962a
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ int在python中是什么意思08/14
- ♥ Python中的id函数是什么意思10/05
- ♥ python如何调用cmd命令09/20
- ♥ python中文件的文件格式是什么10/30
- ♥ Python如何执行js代码12/05
- ♥ Python二进制转换:十进制到二进制的用法11/01
内容反馈