重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
可以在Python中将其实现为一个新的独立函数,名为evaluate_arima_model(),它将时间序列数据集作为输入,以及具有p,d和q参数的元组作为输入。
创新互联建站专业为企业提供浑南网站建设、浑南做网站、浑南网站设计、浑南网站制作等企业网站建设、网页设计与制作、浑南企业网站模板建站服务,十载浑南做网站经验,不只是建网站,更提供有价值的思路和整体网络服务。
数据集分为两部分:初始训练数据集为66%,测试数据集为剩余的34%。
savetxt
import numpy as np
i2 = np.eye(2)
np.savetxt("eye.txt", i2)
3.4 读入CSV文件
# AAPL,28-01-2011, ,344.17,344.4,333.53,336.1,21144800
c,v=np.loadtxt('data.csv', delimiter=',', usecols=(6,7), unpack=True) #index从0开始
3.6.1 算术平均值
np.mean(c) = np.average(c)
3.6.2 加权平均值
t = np.arange(len(c))
np.average(c, weights=t)
3.8 极值
np.min(c)
np.max(c)
np.ptp(c) 最大值与最小值的差值
3.10 统计分析
np.median(c) 中位数
np.msort(c) 升序排序
np.var(c) 方差
3.12 分析股票收益率
np.diff(c) 可以返回一个由相邻数组元素的差
值构成的数组
returns = np.diff( arr ) / arr[ : -1] #diff返回的数组比收盘价数组少一个元素
np.std(c) 标准差
对数收益率
logreturns = np.diff( np.log(c) ) #应检查输入数组以确保其不含有零和负数
where 可以根据指定的条件返回所有满足条件的数
组元素的索引值。
posretindices = np.where(returns 0)
np.sqrt(1./252.) 平方根,浮点数
3.14 分析日期数据
# AAPL,28-01-2011, ,344.17,344.4,333.53,336.1,21144800
dates, close=np.loadtxt('data.csv', delimiter=',', usecols=(1,6), converters={1:datestr2num}, unpack=True)
print "Dates =", dates
def datestr2num(s):
return datetime.datetime.strptime(s, "%d-%m-%Y").date().weekday()
# 星期一 0
# 星期二 1
# 星期三 2
# 星期四 3
# 星期五 4
# 星期六 5
# 星期日 6
#output
Dates = [ 4. 0. 1. 2. 3. 4. 0. 1. 2. 3. 4. 0. 1. 2. 3. 4. 1. 2. 4. 0. 1. 2. 3. 4. 0.
1. 2. 3. 4.]
averages = np.zeros(5)
for i in range(5):
indices = np.where(dates == i)
prices = np.take(close, indices) #按数组的元素运算,产生一个数组作为输出。
a = [4, 3, 5, 7, 6, 8]
indices = [0, 1, 4]
np.take(a, indices)
array([4, 3, 6])
np.argmax(c) #返回的是数组中最大元素的索引值
np.argmin(c)
3.16 汇总数据
# AAPL,28-01-2011, ,344.17,344.4,333.53,336.1,21144800
#得到第一个星期一和最后一个星期五
first_monday = np.ravel(np.where(dates == 0))[0]
last_friday = np.ravel(np.where(dates == 4))[-1]
#创建一个数组,用于存储三周内每一天的索引值
weeks_indices = np.arange(first_monday, last_friday + 1)
#按照每个子数组5个元素,用split函数切分数组
weeks_indices = np.split(weeks_indices, 5)
#output
[array([1, 2, 3, 4, 5]), array([ 6, 7, 8, 9, 10]), array([11,12, 13, 14, 15])]
weeksummary = np.apply_along_axis(summarize, 1, weeks_indices,open, high, low, close)
def summarize(a, o, h, l, c): #open, high, low, close
monday_open = o[a[0]]
week_high = np.max( np.take(h, a) )
week_low = np.min( np.take(l, a) )
friday_close = c[a[-1]]
return("APPL", monday_open, week_high, week_low, friday_close)
np.savetxt("weeksummary.csv", weeksummary, delimiter=",", fmt="%s") #指定了文件名、需要保存的数组名、分隔符(在这个例子中为英文标点逗号)以及存储浮点数的格式。
0818b9ca8b590ca3270a3433284dd417.png
格式字符串以一个百分号开始。接下来是一个可选的标志字符:-表示结果左对齐,0表示左端补0,+表示输出符号(正号+或负号-)。第三部分为可选的输出宽度参数,表示输出的最小位数。第四部分是精度格式符,以”.”开头,后面跟一个表示精度的整数。最后是一个类型指定字符,在例子中指定为字符串类型。
numpy.apply_along_axis(func1d, axis, arr, *args, **kwargs)
def my_func(a):
... """Average first and last element of a 1-D array"""
... return (a[0] + a[-1]) * 0.5
b = np.array([[1,2,3], [4,5,6], [7,8,9]])
np.apply_along_axis(my_func, 0, b) #沿着X轴运动,取列切片
array([ 4., 5., 6.])
np.apply_along_axis(my_func, 1, b) #沿着y轴运动,取行切片
array([ 2., 5., 8.])
b = np.array([[8,1,7], [4,3,9], [5,2,6]])
np.apply_along_axis(sorted, 1, b)
array([[1, 7, 8],
[3, 4, 9],
[2, 5, 6]])
3.20 计算简单移动平均线
(1) 使用ones函数创建一个长度为N的元素均初始化为1的数组,然后对整个数组除以N,即可得到权重。如下所示:
N = int(sys.argv[1])
weights = np.ones(N) / N
print "Weights", weights
在N = 5时,输出结果如下:
Weights [ 0.2 0.2 0.2 0.2 0.2] #权重相等
(2) 使用这些权重值,调用convolve函数:
c = np.loadtxt('data.csv', delimiter=',', usecols=(6,),unpack=True)
sma = np.convolve(weights, c)[N-1:-N+1] #卷积是分析数学中一种重要的运算,定义为一个函数与经过翻转和平移的另一个函数的乘积的积分。
t = np.arange(N - 1, len(c)) #作图
plot(t, c[N-1:], lw=1.0)
plot(t, sma, lw=2.0)
show()
3.22 计算指数移动平均线
指数移动平均线(exponential moving average)。指数移动平均线使用的权重是指数衰减的。对历史上的数据点赋予的权重以指数速度减小,但永远不会到达0。
x = np.arange(5)
print "Exp", np.exp(x)
#output
Exp [ 1. 2.71828183 7.3890561 20.08553692 54.59815003]
Linspace 返回一个元素值在指定的范围内均匀分布的数组。
print "Linspace", np.linspace(-1, 0, 5) #起始值、终止值、可选的元素个数
#output
Linspace [-1. -0.75 -0.5 -0.25 0. ]
(1)权重计算
N = int(sys.argv[1])
weights = np.exp(np.linspace(-1. , 0. , N))
(2)权重归一化处理
weights /= weights.sum()
print "Weights", weights
#output
Weights [ 0.11405072 0.14644403 0.18803785 0.24144538 0.31002201]
(3)计算及作图
c = np.loadtxt('data.csv', delimiter=',', usecols=(6,),unpack=True)
ema = np.convolve(weights, c)[N-1:-N+1]
t = np.arange(N - 1, len(c))
plot(t, c[N-1:], lw=1.0)
plot(t, ema, lw=2.0)
show()
3.26 用线性模型预测价格
(x, residuals, rank, s) = np.linalg.lstsq(A, b) #系数向量x、一个残差数组、A的秩以及A的奇异值
print x, residuals, rank, s
#计算下一个预测值
print np.dot(b, x)
3.28 绘制趋势线
x = np.arange(6)
x = x.reshape((2, 3))
x
array([[0, 1, 2], [3, 4, 5]])
np.ones_like(x) #用1填充数组
array([[1, 1, 1], [1, 1, 1]])
类似函数
zeros_like
empty_like
zeros
ones
empty
3.30 数组的修剪和压缩
a = np.arange(5)
print "a =", a
print "Clipped", a.clip(1, 2) #将所有比给定最大值还大的元素全部设为给定的最大值,而所有比给定最小值还小的元素全部设为给定的最小值
#output
a = [0 1 2 3 4]
Clipped [1 1 2 2 2]
a = np.arange(4)
print a
print "Compressed", a.compress(a 2) #返回一个根据给定条件筛选后的数组
#output
[0 1 2 3]
Compressed [3]
b = np.arange(1, 9)
print "b =", b
print "Factorial", b.prod() #输出数组元素阶乘结果
#output
b = [1 2 3 4 5 6 7 8]
Factorial 40320
print "Factorials", b.cumprod()
#output
SciPy 里面的子函数库optimize, 一般情况下可用curve_fit函数直接拟合或者leastsq做最小二乘
1.基本概念
多项式回归(Polynomial Regression)是研究一个因变量与一个或多个自变量间多项式的回归分析方法。如果自变量只有一个 时,称为一元多项式回归;如果自变量有多个时,称为多元多项式回归。

1.在一元回归分析中,如果依变量y与自变量x的关系为非线性的,但是又找不到适当的函数曲线来拟合,则可以采用一元多项式回归。
2.多项式回归的最大优点就是可以通过增加x的高次项对实测点进行逼近,直至满意为止。
3.事实上,多项式回归可以处理相当一类非线性问题,它在回归分析 中占有重要的地位,因为任一函数都可以分段用多项式来逼近。

2.实例
我们在前面已经根据已知的房屋成交价和房屋的尺寸进行了线 性回归,继而可以对已知房屋尺寸,而未知房屋成交价格的实例进行了成 交价格的预测,但是在实际的应用中这样的拟合往往不够好,因此我们在 此对该数据集进行多项式回归。
目标:对房屋成交信息建立多项式回归方程,并依据回归方程对房屋价格进行预测

import matplotlib.pyplot as plt
import numpy as np
from sklearn import linear_model
#导入线性模型和多项式特征构造模块
from sklearn.preprocessing import PolynomialFeatures
datasets_X =[]
datasets_Y =[]
fr =open('prices.txt','r')
#一次读取整个文件。
lines =fr.readlines()
#逐行进行操作,循环遍历所有数据
for line in lines:
#去除数据文件中的逗号
items =line.strip().split(',')
#将读取的数据转换为int型,并分别写入datasets_X和datasets_Y。
datasets_X.append(int(items[0]))
datasets_Y.append(int(items[1]))
#求得datasets_X的长度,即为数据的总数。
length =len(datasets_X)
#将datasets_X转化为数组, 并变为二维,以符合线性回 归拟合函数输入参数要求
datasets_X= np.array(datasets_X).reshape([length,1])
#将datasets_Y转化为数组
datasets_Y=np.array(datasets_Y)
minX =min(datasets_X)
maxX =max(datasets_X)
#以数据datasets_X的最大值和最小值为范围,建立等差数列,方便后续画图。
X=np.arange(minX,maxX).reshape([-1,1])
#degree=2表示建立datasets_X的二 次多项式特征X_poly。
poly_reg =PolynomialFeatures(degree=2)
X_ploy =poly_reg.fit_transform(datasets_X)
lin_reg_2=linear_model.LinearRegression()
lin_reg_2.fit(X_ploy,datasets_Y)
#查看回归方程系数
print('Cofficients:',lin_reg_2.coef_)
#查看回归方程截距
print('intercept',lin_reg_2.intercept_)
plt.scatter(datasets_X,datasets_Y,color='red')
plt.plot(X,lin_reg_2.predict(poly_reg.fit_transform(X)),color='blue')
plt.xlabel('Area')
plt.ylabel('Price')
plt.show()
运行结果:
Cofficients: [0.00000000e+00 4.93982848e-02 1.89186822e-05]
intercept 151.8469675050044
通过多项式回归拟合的曲线与 数据点的关系如下图所示。依据该 多项式回归方程即可通过房屋的尺 寸,来预测房屋的成交价格。

文章知识点与官方知识档案匹配
Python入门技能树人工智能基于Python的监督学习
194396 人正在系统学习中
打开CSDN,阅读体验更佳
基于Python的多项式拟合方法_飘羽的博客_python 多项式...
基于Python的多项式拟合方法 1. 直接上代码进行介绍 __author__ ='Administrator' # coding=utf8 # 导入相关包 importmatplotlib.pyplotasplt importnumpyasnp frompandasimportread_csv fromsklearn.metricsimportr2_score...
继续访问
python机器学习 | 多项式回归和拟合_Claire_chen_jia的博客...
多项式回归中,加入了特征的更高次方(例如平方项或立方项),也相当于增加了模型的自由度,用来捕获数据中非线性的变化。 多项式拟合lm_sklearn之多项式回归 weixin_34419561的博客 601 '''多项式回归:若希望回归模型更好的拟合训练样本...
继续访问
最新发布 Python回归预测建模实战-多项式回归预测房价(附源码和实现效果)
Python回归预测建模实战-多项式回归预测房价(附源码和实现效果)
继续访问

sklearn实现非线性回归模型
sklearn实现非线性回归模型 前言: sklearn实现非线性回归模型的本质是通过线性模型实现非线性模型,如何实现呢?sklearn就是先将非线性模型转换为线性模型,再利用线性模型的算法进行训练模型。 一、线性模型解决非线性模型的思想 1、样本数据如下 x y 1 45000 2 50000 3 60000 4 80000 5 110000 6 15000...
继续访问

多项式拟合,模型的复杂度以及权重的变化_今晚打佬虎的博客...
sklearn,提供了多项式特征的方法: fromsklearn.preprocessingimportPolynomialFeatures X=np.arange(6).reshape(3,2)poly=PolynomialFeatures(2)poly.fit_transform(X)array([[1.,0.,1.,0.,0.,1.],[1.,2.,3.,4.,6.,9...
继续访问
python数据处理三:使用sklearn实现曲线拟合_耐心的小黑的博客-CSDN博 ...
from sklearn.linear_model import LinearRegressionfrom sklearn.preprocessing import PolynomialFeaturesimport numpy as npimport matplotlib.pyplot as plt#获取待拟合数据x = np.linspace(1, 50, 50)f = np.poly1d([2,5,10])y ...
继续访问
机器学习(十)线性多项式回归之房价与房屋尺寸关系
一.线性回归 (1)线性回归 线性回归(Linear Regression)是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分 析方法。 线性回归利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归 线性回归:使用形如y=w T x+b的线性模型拟合数据输入和输出之间的映射关系的。 线性回归有很多实际的用途,分为以下两类: 1.如果目标是预测或者映射,线性回归可以用来对观测数据集的y和X的值拟合出一个预测模型。
python完成非线性拟合
在之前的博客"使用python来完成数据的线性拟合"当中,介绍了基于python,使用三种方法完成线性拟合的理论和代码实现。同样经常会碰到样本分布呈现非线性关系的情况,那么如何拟合出来呢?本文侧重对数据已经有建模,但是准确的关系需要得以确定的情况。 如果想直接求出拟合系数,而不清楚原本模型的话,直接利用theta = np.polyfit(X, Y_noise, deg=4)得到y=a*x^4+b*x^3+c*x^2+d方程的theta=[a,b,c,d]。这里deg=4表...
继续访问

sklearn实现多项式回归_盛夏未来的博客
sklearn实现多项式回归 多项式回归 一个数据集,用散点图画出来如下图,可以看到此时用一条直线(或者超平面)是不能拟合的,所以需要用一个多项式表示的曲线(或者超曲面)才能得到更好的拟合结果。
继续访问
多项式回归+房价与房屋尺寸的非线性拟合
多项式回归 多项式回归(Polynomial Regression)是研究一个因变量与一个或多个自变量间多项式的回归分析方法。如果自变量只有一个时,称为一元多项式回归;如果自变量有多个时,称为多元多项式回归。 在一元回归分析中,如果依变量y与自变量X的关系为非线性的,但是又找不到适当的函数曲线来拟合,则可以采用一元多项式回归。后续的实例就是这个例子。 多项式回归的最大优点就是可以通过增加X的高次...
继续访问
Python机器学习应用 | 多项式回归
1 多项式回归多项式回归(Polynomial Regression)是研究一个因变量与一个或多个自变量间多项式的回归分析方法。如果自变量只有一个时,称为一元多项式回归;如果自变量有多个时,称为多元多项式回归。 在一元回归分析中,如果依变量y与自变量x的关系为非线性的,但是又找不到适当的函数曲线来拟合,则可以采用一元多项式回归。 多项式回归的最大优点就是可以通过增加x的高次项对实测点进行逼近,直
继续访问
多项式拟合lm_sklearn之多项式回归
'''多项式回归:若希望回归模型更好的拟合训练样本数据,可以使用多项式回归器。一元多项式回归:数学模型:y = w0 + w1 * x^1 + w2 * x^2 + .... + wn * x^n将高次项看做对一次项特征的扩展得到:y = w0 + w1 * x1 + w2 * x2 + .... + wn * xn那么一元多项式回归即可以看做为多元线性回归,可以使用LinearRegressio...
继续访问
sklearn多项式拟合
继续访问
【Scikit-Learn】多项式拟合
%matplotlib inline import matplotlib.pyplot as plt import numpy as np n_dots = 20 x = np.linspace(0, 1, n_dots) # [0, 1] 之间创建 20 个点 y = np.sqrt(x) + 0.2*np.random.rand(n_dots) - 0....
继续访问
python 非线性多项式拟合_浅析多项式回归与sklearn中的Pipeline
0x00 前言 之前我们介绍了简单线性回归,其输入特征只有一维,即:;推广到多维特征,即多元线性回归:。但是在线性回归的背后是有一个很强的假设条件:数据存在线性关系。但是更多的数据之间具有非线性关系。因此对线性回归法进行改进,使用多项式回归法,可以对非线性数据进行处理。0x01 什么是多项式回归 研究一个因变量与一个或多个自变量间多项式的回归分析方法,称为多项式回归(Polynomial...
继续访问

机器学习-sklearn-多项式回归-对函数拟合-看学习曲线(均方误差MSE)-pipeline
python sklearn pipeline做函数拟合,-看学习曲线(均方误差MSE)
继续访问

sklearn实现多项式回归
1)生成数据集 import numpy as np import matplotlib.pyplot as plt n_train, n_test, true_w, true_b = 100, 100, [1.2, -3.4, 5.6], 5 # X = np.linspace(-3,3,n_train+n_test) X = np.random.normal(size=(n_train...
继续访问
多项式回归
线性回归只能拟合简单的 线性问题,当现在数据的复杂程度不能使用线性拟合,这时要考虑非线性拟合。现在考虑一种最简单的非线性拟合--多项式回归。 多项式回归的含义是直接从线性回归过度到非线性,简单的做法可以将原来的特征的幂次方作为一个新的特征,这样随着特征的逐渐复杂,它也能够解决非线性数据的拟合问题,这种从线性特征集上扩展过来的模型,称为多项式回归。 首先创建非线性带噪声的数据集 import...
继续访问

sklearn多项式回归
# -*- coding: utf-8 -*- """ Created on Mon Jan 29 22:57:10 2018 @author: Administrator """ import matplotlib.pyplot as plt import numpy as np from sklearn.linear_model import LinearRegression#导入线性回归
继续访问
【机器学习】多项式回归python实现
使用python实现多项式回归,没有使用sklearn等机器学习框架,目的是帮助理解算法的原理。 使用一个简单的数据集来模拟,只有几条数据。 代码 从数据集中读取X和y。 为X添加二次方项,用Z替换。 给Z添加 1 列,初始化为 1 ,用来求偏置项。 划分训练集和测试集。 将Z和y的训练集转换为矩阵形式。 和线性回归类似,使用正规方程法,先验证矩阵的可逆性。 去掉Z中全为1的列。 使用测试集...
继续访问

sklearn线性回归完成多次项函数和正弦函数拟合
这样两个式子,使用sklearn 线性回归进行拟合 直接上代码 得到结果:score : 0.9902512046606555 mse : 7940.310765934783画图结果:对于正玄曲线原始数据画图 degree定成三阶拟合图 degree定成二阶拟合图degree定成六阶拟合图,效果非常好,但不知道是不是有点过拟合了、? 话不多说,直接上代码:...
继续访问

热门推荐 python运用sklearn进行数据拟合和回归
在上一篇讲了最小二乘法实现线性回归的原理,实现方面用的是python的static.optimize中的leastsq求出拟合函数。本篇通过sklearn库中的模块来进行拟合和线性回归,并计算拟合误差。 对于线性回归来说,无论是用什么工具实现,步骤都是大同小异的: 初始化多项式方程 对多项式方程进行多次迭代,通过最小二乘法求出使平方损失函数最小情况下的拟合方程。 对模型预测结果进行评估 调整参数...
继续访问

sklearn-多项式回归
import numpy as np import matplotlib.pyplot as plt from sklearn.preprocessing import PolynomialFeatures from sklearn.linear_model import LinearRegression #载入数据 data = np.genfromtxt("job.csv",delim...
继续访问
[机器学习与scikit-learn-31]:算法-回归-线性模拟拟合拟合非线性数据-概述
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址: 目录 第1章 什么是线性与非线性关系 1.1 描述对象 1.2 什么是线性与非线性关系 第2章 数据(分布)的线性与非线性 2.1 什么是线性与非线性数据(拟合、模拟回归) 2.2什么是线性与非线性可分数据(分类、逻辑回归) 2.3 分类问题的拟合表达 第3章 模型的线性与非线性 3.1 线性模型 3.2 特定的非线性模型 3.3 通用的非线性模型:多项式非线性模型(Polyn.
继续访问
from scipy.optimize import fmin
def myfunc(x):
return x**2-4*x+8
print fmin(myfunc, 0)
def myfunc(p):
x, y = p
return x**2+y**2+8
print fmin(myfunc, (1, 1))
复制代码
fmin的第一个参数是一个函数,这个函数的参数是一个数组,数组中每个元素是一个变量,因此对于多元函数,需要在myfunc内部将数组的内容展开。