重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
这篇文章给大家介绍大数据中如何使用Q-Q图验证数据的分布,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。
创新互联秉承实现全网价值营销的理念,以专业定制企业官网,做网站、成都网站制作,微信平台小程序开发,网页设计制作,移动网站建设,全网营销推广帮助传统企业实现“互联网+”转型升级专业定制企业官网,公司注重人才、技术和管理,汇聚了一批优秀的互联网技术人才,对客户都以感恩的心态奉献自己的专业和所长。
Q-Q图是检验任何随机变量(如正态分布、指数分布、对数正态分布等)分布的图形方法,是观察任何分布性质的一种统计方法。
例如,如果给定的一个分布需要验证它是否是正态分布,我们运行统计分析并将未知分布与已知正态分布进行比较。然后通过观察Q-Q图的结果,我们可以确定给定的分布是否正态分布。
给定一个未知的随机变量。
找到每个百分位值
生成一个已知的随机分布,根据该分布同样遵循步骤1-2。
绘制Q-Q图
给定一个随机分布,需要验证它是否为正态/高斯分布。为了便于理解,我们将这个未知分布命名为X,将已知的正态分布命名为Y。
X = np.random.normal(loc=50, scale=25, size=1000)
我们正在生成一个正态分布,有1000个值,平均值=50,标准差=25。
查找1%~100%:
X_100 = [] for i in range(1,101): X_100.append(np.percentile(X, i))
计算每个百分位数(1%,2%,3%,. . .,99%,100%)X的随机分布值,并将其存储在X_100中。
Y = np.random.normal(loc=0, scale=1, size=1000)
生成一个正态分布,其平均值为0,标准偏差为1,需要与未知分布X进行比较,以验证X分布是否正态分布。
Y_100 = [] for i in range(101): Y_100.append(np.percentile(Y, i))
计算每个百分位数(1%,2%,3%,. . .,99%,100%)Y的随机分布值,并将其存储在Y_100中。
为以上获得的未知分布值绘制散点图。
这里X是未知分布,要与Y这个正态分布相比。
对于Q-Q图,如果图中的散点在一条直线上,则两个随机变量具有相同的分布,否则它们具有不同的分布。
从上面的Q-Q图可以看出X是正态分布的。
如果X不是正态分布,并且它有其他分布,那么如果Q-Q图是在X和正态分布之间绘制的,那么散射点就不会在一条直线上。
这里,X分布是对数正态分布,因此Q-Q图中的散射点不是直线。
这是4个不同条件下X和Y分布的Q-Q图。
左上:对数正态分布与正态分布的QQ图
右上:正态与指数分布的QQ图
左下:指数与指数分布的QQ图
右下:logistic与logistic分布的QQ图
import numpy as np import matplotlib.pyplot as plt X = np.random.normal(loc=50, scale=25, size=1000) X_100 = [] for i in range(1,101): X_100.append(np.percentile(X, i)) Y = np.random.normal(loc=0, scale=1, size=1000) Y_100 = [] for i in range(1,101): Y_100.append(np.percentile(Y, i)) plt.scatter(X_100, Y_100) plt.grid() plt.ylabel("Y - normal distribution") plt.xlabel("X - normal distribution") plt.show()
Q-Q图可以用来比较任意两个分布,并且可以通过与已知分布的比较来验证未知分布。这种方法有一个主要的局限性,即需要大量的数据点,因为得出较少的数据不是明智的决定。通过观察Q-Q图可以预测这两种分布是否相同。
关于大数据中如何使用Q-Q图验证数据的分布就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。