重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
最近,大数据工程师Kin Lim Lee在Medium上发表了一篇文章,介绍了8个用于数据清洗的Python代码。
创新互联-专业网站定制、快速模板网站建设、高性价比原阳网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式原阳网站制作公司更省心,省钱,快速模板网站建设找我们,业务覆盖原阳地区。费用合理售后完善,十载实体公司更值得信赖。数据清洗,是进行数据分析和使用数据训练模型的必经之路,也是最耗费数据科学家/程序员精力的地方。
这些用于数据清洗的代码有两个优点:一是由函数编写而成,不用改参数就可以直接使用。二是非常简单,加上注释最长的也不过11行。在介绍每一段代码时,Lee都给出了用途,也在代码中也给出注释。大家可以把这篇文章收藏起来,当做工具箱使用。
涵盖8大场景的数据清洗代码
这些数据清洗代码,一共涵盖8个场景,分别是:
删除多列、更改数据类型、将分类变量转换为数字变量、检查缺失数据、删除列中的字符串、删除列中的空格、用字符串连接两列(带条件)、转换时间戳(从字符串到日期时间格式)
删除多列
在进行数据分析时,并非所有的列都有用,用df.drop可以方便地删除你指定的列。
def drop_multiple_col(col_names_list, df): AIM -> Drop multiple columns based on their column names INPUT -> List of column names, df OUTPUT -> updated df with dropped columns ------ df.drop(col_names_list, axis=1, inplace=True) return df