重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
本篇文章给大家分享的是有关如何用一行Python进行数据收集探索,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。
创新互联网站建设由有经验的网站设计师、开发人员和项目经理组成的专业建站团队,负责网站视觉设计、用户体验优化、交互设计和前端开发等方面的工作,以确保网站外观精美、成都网站设计、网站制作易于使用并且具有良好的响应性。简易的Pandas之路
任何使用Python数据的人都会熟悉Pandas包。Pandas是大多数行和列格式数据的go-to包。如果你没有Pandas,请确保在终端中使用pip install安装:
pip install pandas
现在,让我们看看Pandas包中的默认方法可以做些什么:
以下内容写给不知道上面发生了什么的新手:
任何Pandas数据帧都有一个.descripe()返回上面的输出的方法。但是,此方法中没有注意到分类变量。在上面的示例中,输出中完全省略了“ method ”列。
让我们看看能不能解决这个问题。
Pandas分析
如果我告诉你仅用3行Python就可以产生以下统计信息,你会怎么想?但其实,如果不计算imports的话,总体上只用1行就够。
要点:类型,唯一值,缺失值
分位数统计信息:例如最小值,Q1,中位数,Q3,大值,范围,四分位数范围
描述性统计数据:例如平均值,众数,标准偏差,总和,中位数绝对偏差,变异系数,峰度,偏度
常用值
直方图
高相关变量Spearman,Pearson和Kendall矩阵的相关性突出显示
缺失值矩阵,计数,热图和缺失值树状图
(功能列表直接来自Pandas Profiling GitHub)
好吧,我们可以使用Pandas Profiling软件包!要安装Pandas Profiling软件包,只需在终端中使用pip install即可:
pip install pandas_profiling
经验丰富的数据分析人员可能会因为这些数据的松散甚至乍一看之下的“华而不实”而嗤之以鼻,但这对于快速获得数据的第一手印象肯定是有用的:
我们首先看到的是概述,其中提供了关于数据和变量的一些非常高级的统计信息,以及变量之间的高相关性、高偏态性的警告等。
但这还不算什么。向下滚动我们会发现报告有多个部分,如果只是简单地用图片展示这个1行程序的输出是不足以完全呈现这些内容的,所以我制作了一个gif:
我强烈建议大家自己去探索一下这个包的特性,毕竟,这里提到的只是一行代码,在将来 的数据分析中,这个包可能会对你非常有用。
import pandas as pd import pandas_profiling pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()
以上就是如何用一行Python进行数据收集探索,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注创新互联-成都网站建设公司行业资讯频道。