python向量化函数向量化运算

Python——ndarray多维数组基本操作（1）

数组允许进行批量操作而无需使用for循环，因此更加简便，这种特性也被称为向量化。任何两个等尺寸之间的算术操作都应用逐元素操作的方式进行。

创新互联公司专注于沅江企业网站建设,自适应网站建设,商城网站建设。沅江网站建设公司,为沅江等地区提供建站服务。全流程按需网站策划，专业设计，全程项目跟踪，创新互联公司专业和态度为您提供的服务

同尺度数组之间的比较，会产生一个布尔型数组。

上述操作均是在同尺度数组之间进行的，对于不同尺度数组间的操作，会使用到广播特性。

索引：获取数组中特定位置元素的过程；

切片：获取数组元素子集的过程。

new_a = a.astype(new_type)

astype()方法一定会创建新的数组（原始数据的一个拷贝），即使两个类型一致。

ls = a.tolist()

转置是一种特殊的数据重组形式，可以返回底层数据的视图而不需要复制任何内容。

数组拥有 transpose 方法，也有特殊的 T 属性。

对于更高纬度的数组， transpose 方法可以接受包含轴编号的元组，用于转置轴。

ndarray的 swapaxes 方法，通过接受一对轴编号作为参数，并对轴进行调整用于重组数据。

swapaxes 方法返回的是数据的视图，而没有对数据进行复制。

Reference：

《Python for Data Analysis:Data Wrangling with Pandas,Numpy,and IPython》

优化Python编程的4个妙招

1. Pandas.apply() – 特征工程瑰宝

Pandas 库已经非常优化了，但是大部分人都没有发挥它的最大作用。想想它一般会用于数据科学项目中的哪些地方。一般首先能想到的就是特征工程，即用已有特征创造新特征。其中最高效的方法之一就是Pandas.apply()，即Pandas中的apply函数。

在Pandas.apply()中，可以传递用户定义功能并将其应用到Pandas Series的所有数据点中。这个函数是Pandas库最好的扩展功能之一，它能根据所需条件分隔数据。之后便能将其有效应用到数据处理任务中。

2. Pandas.DataFrame.loc – Python数据操作绝妙技巧

所有和数据处理打交道的数据科学家(差不多所有人了!)都应该学会这个方法。

很多时候，数据科学家需要根据一些条件更新数据集中某列的某些值。Pandas.DataFrame.loc就是此类问题最优的解决方法。

3. Python函数向量化

另一种解决缓慢循环的方法就是将函数向量化。这意味着新建函数会应用于输入列表，并返回结果数组。在Python中使用向量化能至少迭代两次，从而加速计算。

事实上，这样不仅能加速代码运算，还能让代码更加简洁清晰。

4. Python多重处理

多重处理能使系统同时支持一个以上的处理器。

此处将数据处理分成多个任务，让它们各自独立运行。处理庞大的数据集时，即使是apply函数也显得有些迟缓。

关于优化Python编程的4个妙招，青藤小编就和您分享到这里了。如果您对python编程有浓厚的兴趣，希望这篇文章可以为您提供帮助。如果您还想了解更多关于python编程的技巧及素材等内容，可以点击本站的其他文章进行学习。

如何系统地自学 Python

是否非常想学好 Python，一方面被琐事纠缠，一直没能动手，另一方面，担心学习成本太高，心里默默敲着退堂鼓？

幸运的是，Python 是一门初学者友好的编程语言，想要完全掌握它，你不必花上太多的时间和精力。

Python 的设计哲学之一就是简单易学，体现在两个方面：

语法简洁明了：相对 Ruby 和 Perl，它的语法特性不多不少，大多数都很简单直接，不玩儿玄学。

切入点很多：Python 可以让你可以做很多事情，科学计算和数据分析、爬虫、Web 网站、游戏、命令行实用工具等等等等，总有一个是你感兴趣并且愿意投入时间的。

废话不多说，学会一门语言的捷径只有一个： Getting Started

¶ 起步阶段

任何一种编程语言都包含两个部分：硬知识和软知识，起步阶段的主要任务是掌握硬知识。

硬知识

“硬知识”指的是编程语言的语法、算法和数据结构、编程范式等，例如：变量和类型、循环语句、分支、函数、类。这部分知识也是具有普适性的，看上去是掌握了一种语法，实际是建立了一种思维。例如：让一个 Java 程序员去学习 Python，他可以很快的将 Java 中的学到的面向对象的知识 map 到 Python 中来，因此能够快速掌握 Python 中面向对象的特性。

如果你是刚开始学习编程的新手，一本可靠的语法书是非常重要的。它看上去可能非常枯燥乏味，但对于建立稳固的编程思维是必不可少。

下面列出了一些适合初学者入门的教学材料：

廖雪峰的 Python 教程 Python 中文教程的翘楚，专为刚刚步入程序世界的小白打造。

笨方法学 Python 这本书在讲解 Python 的语法成分时，还附带大量可实践的例子，非常适合快速起步。

The Hitchhiker’s Guide to Python! 这本指南着重于 Python 的最佳实践，不管你是 Python 专家还是新手，都能获得极大的帮助。

Python 的哲学：

用一种方法，最好是只有一种方法来做一件事。

学习也是一样，虽然推荐了多种学习资料，但实际学习的时候，最好只选择其中的一个，坚持看完。

必要的时候，可能需要阅读讲解数据结构和算法的书，这些知识对于理解和使用 Python 中的对象模型有着很大的帮助。

软知识

“软知识”则是特定语言环境下的语法技巧、类库的使用、IDE的选择等等。这一部分，即使完全不了解不会使用，也不会妨碍你去编程，只不过写出的程序，看上去显得“傻”了些。

对这些知识的学习，取决于你尝试解决的问题的领域和深度。对初学者而言，起步阶段极易走火，或者在选择 Python 版本时徘徊不决，一会儿看 2.7 一会儿又转到 3.0，或者徜徉在类库的大海中无法自拔，Scrapy，Numpy，Django 什么都要试试，或者参与编辑器圣战、大括号缩进探究、操作系统辩论赛等无意义活动，或者整天跪舔语法糖，老想着怎么一行代码把所有的事情做完，或者去构想圣洁的性能安全通用性健壮性全部满分的解决方案。

很多“大牛”都会告诫初学者，用这个用那个，少走弯路，这样反而把初学者推向了真正的弯路。

还不如告诉初学者，学习本来就是个需要你去走弯路出 Bug，只能脚踏实地，没有奇迹只有狗屎的过程。

选择一个方向先走下去，哪怕脏丑差，走不动了再看看有没有更好的解决途径。

自己走了弯路，你才知道这么做的好处，才能理解为什么人们可以手写状态机去匹配却偏要发明正则表达式，为什么面向过程可以解决却偏要面向对象，为什么我可以操纵每一根指针却偏要自动管理内存，为什么我可以嵌套回调却偏要用 Promise...

更重要的是，你会明白，高层次的解决方法都是对低层次的封装，并不是任何情况下都是最有效最合适的。

技术涌进就像波浪一样，那些陈旧的封存已久的技术，消退了迟早还会涌回的。就像现在移动端应用、手游和 HTML5 的火热，某些方面不正在重演过去 PC 的那些历史么？

因此，不要担心自己走错路误了终身，坚持并保持进步才是正道。

起步阶段的核心任务是掌握硬知识，软知识做适当了解，有了稳固的根，粗壮的枝干，才能长出浓密的叶子，结出甜美的果实。

¶ 发展阶段

完成了基础知识的学习，必定会感到一阵空虚，怀疑这些语法知识是不是真的有用。

没错，你的怀疑是非常正确的。要让 Python 发挥出它的价值，当然不能停留在语法层面。

发展阶段的核心任务，就是“跳出 Python，拥抱世界”。

在你面前会有多个分支：科学计算和数据分析、爬虫、Web 网站、游戏、命令行实用工具等等等等，这些都不是仅仅知道 Python 语法就能解决的问题。

拿爬虫举例，如果你对计算机网络，HTTP 协议，HTML，文本编码，JSON 一无所知，你能做好这部分的工作么？而你在起步阶段的基础知识也同样重要，如果你连循环递归怎么写都还要查文档，连 BFS 都不知道怎么实现，这就像工匠做石凳每次起锤都要思考锤子怎么使用一样，非常低效。

在这个阶段，不可避免要接触大量类库，阅读大量书籍的。

类库方面

「Awesome Python 项目」：vinta/awesome-python · GitHub

这里列出了你在尝试解决各种实际问题时，Python 社区已有的工具型类库，如下图所示：

请点击输入图片描述

vinta/awesome-python

你可以按照实际需求，寻找你需要的类库。

至于相关类库如何使用，必须掌握的技能便是阅读文档。由于开源社区大多数文档都是英文写成的，所以，英语不好的同学，需要恶补下。

书籍方面

这里我只列出一些我觉得比较有一些帮助的书籍，详细的请看豆瓣的书评：

科学和数据分析：

❖「集体智慧编程」：集体智慧编程 (豆瓣)

❖「数学之美」：数学之美 (豆瓣)

❖「统计学习方法」：统计学习方法 (豆瓣)

❖「Pattern Recognition And Machine Learning」：Pattern Recognition And Machine Learning (豆瓣)

❖「数据科学实战」：数据科学实战 (豆瓣)

❖「数据检索导论」：信息检索导论 (豆瓣)

爬虫：

❖「HTTP 权威指南」：HTTP权威指南 (豆瓣)

Web 网站：

❖「HTML CSS 设计与构建网站」：HTML CSS设计与构建网站 (豆瓣)

...

列到这里已经不需要继续了。

聪明的你一定会发现上面的大部分书籍，并不是讲 Python 的书，而更多的是专业知识。

事实上，这里所谓“跳出 Python，拥抱世界”，其实是发现 Python 和专业知识相结合，能够解决很多实际问题。这个阶段能走到什么程度，更多的取决于自己的专业知识。

¶ 深入阶段

这个阶段的你，对 Python 几乎了如指掌，那么你一定知道 Python 是用 C 语言实现的。

可是 Python 对象的“动态特征”是怎么用相对底层，连自动内存管理都没有的C语言实现的呢？这时候就不能停留在表面了，勇敢的拆开 Python 的黑盒子，深入到语言的内部，去看它的历史，读它的源码，才能真正理解它的设计思路。

这里推荐一本书：

「Python 源码剖析」：Python源码剖析 (豆瓣)

这本书把 Python 源码中最核心的部分，给出了详细的阐释，不过阅读此书需要对 C 语言内存模型和指针有着很好的理解。

另外，Python 本身是一门杂糅多种范式的动态语言，也就是说，相对于 C 的过程式、 Haskell 等的函数式、Java 基于类的面向对象而言，它都不够纯粹。换而言之，编程语言的“道学”，在 Python 中只能有限的体悟。学习某种编程范式时，从那些面向这种范式更加纯粹的语言出发，才能有更深刻的理解，也能了解到 Python 语言的根源。

这里推荐一门公开课

「编程范式」：斯坦福大学公开课：编程范式

讲师高屋建瓴，从各种编程范式的代表语言出发，给出了每种编程范式最核心的思想。

值得一提的是，这门课程对C语言有非常深入的讲解，例如C语言的范型和内存管理。这些知识，对阅读 Python 源码也有大有帮助。

Python 的许多最佳实践都隐藏在那些众所周知的框架和类库中，例如 Django、Tornado 等等。在它们的源代码中淘金，也是个不错的选择。

¶ 最后的话

每个人学编程的道路都是不一样的，其实大都殊途同归，没有迷路的人只有不能坚持的人！

希望想学 Python 想学编程的同学，不要犹豫了，看完这篇文章，

Just Getting Started ！！！

对于Python 的科学计算有哪些提高运算速度的技

一：学会正确使用numpy scipy。 numpy scipy写好的绝不自己写，比如矩阵运算等操作，pylab的实现还算不错。各种函数都有，尽量使用他们可以避免初学者大部分的速度不足问题。因为这些函数大部分都是预编译好的。

根据我几年前的测试，python的矩阵运算速度并不慢，(因为你运行的是动态链接库里面的函数而不是脚本）比mathematica快，和matlab持平。

大部分新手不擅长看文档啥都自己造轮子是不好的。当然老手把效率写的比开源库高也不算啥新闻，毕竟有对特定程序的优化

二：减少for的使用，多使用向量化函数，np.vectorlize可以把函数变成对数组逐元素的操作，比for效率高几个华莱士。

三：对内存友好，操作大矩阵的时候减少会引起整矩阵对此copy的操作

四：系统最慢的大部分时候是io，包括上面说的内存操作和频繁的读入读出以及debug输出。避免他们，在需要实时处理的时候引入类似于gpu的pipeline管线机制或者使用灵活的多线程编程可以起到奇效。

五：matplotlib的绘图效率并不高明，在使用交互绘图（plt.ion）的时候减少不必要的刷新率。

「干货」让Python性能起飞的15个技巧，你知道几个呢？

前言

Python 一直以来被大家所诟病的一点就是执行速度慢，但不可否认的是 Python 依然是我们学习和工作中的一大利器。本文总结了15个tips有助于提升 Python 执行速度、优化性能。

关于 Python 如何精确地测量程序的执行时间，这个问题看起来简单其实很复杂，因为程序的执行时间受到很多因素的影响，例如操作系统、Python 版本以及相关硬件（CPU 性能、内存读写速度）等。在同一台电脑上运行相同版本的语言时，上述因素就是确定的了，但是程序的睡眠时间依然是变化的，且电脑上正在运行的其他程序也会对实验有干扰，因此严格来说这就是实验不可重复。

我了解到的关于计时比较有代表性的两个库就是 time 和 timeit 。

其中， time 库中有 time() 、 perf_counter() 以及 process_time() 三个函数可用来计时（以秒为单位），加后缀 _ns 表示以纳秒计时（自 Python3.7 始）。在此之前还有 clock() 函数，但是在 Python3.3 之后被移除了。上述三者的区别如下：

与 time 库相比， timeit 有两个优点：

timeit.timeit(stmt='pass', setup='pass', timer= , number=1000000, globals=None) 参数说明：

本文所有的计时均采用 timeit 方法，且采用默认的执行次数一百万次。

为什么要执行一百万次呢？因为我们的测试程序很短，如果不执行这么多次的话，根本看不出差距。

Exp1：将字符串数组中的小写字母转为大写字母。

测试数组为 oldlist = ['life', 'is', 'short', 'i', 'choose', 'python']。

方法一

方法二

方法一耗时 0.5267724000000005s ，方法二耗时 0.41462569999999843s ，性能提升 21.29%

Exp2：求两个 list 的交集。

测试数组：a = [1,2,3,4,5]，b = [2,4,6,8,10]。

方法一

方法二

方法一耗时 0.9507264000000006s ，方法二耗时 0.6148200999999993s ，性能提升 35.33%

关于 set() 的语法： | 、、 - 分别表示求并集、交集、差集。

我们可以通过多种方式对序列进行排序，但其实自己编写排序算法的方法有些得不偿失。因为内置的 sort() 或 sorted() 方法已经足够优秀了，且利用参数 key 可以实现不同的功能，非常灵活。二者的区别是 sort() 方法仅被定义在 list 中，而 sorted() 是全局方法对所有的可迭代序列都有效。

Exp3：分别使用快排和 sort() 方法对同一列表排序。

测试数组：lists = [2,1,4,3,0]。

方法一

方法二

方法一耗时 2.4796975000000003s ，方法二耗时 0.05551999999999424s ，性能提升 97.76%

顺带一提， sorted() 方法耗时 0.1339823999987857s 。

可以看出， sort() 作为 list 专属的排序方法还是很强的， sorted() 虽然比前者慢一点，但是胜在它“不挑食”，它对所有的可迭代序列都有效。

扩展：如何定义 sort() 或 sorted() 方法的 key

1.通过 lambda 定义

2.通过 operator 定义

operator 的 itemgetter() 适用于普通数组排序， attrgetter() 适用于对象数组排序

3.通过 cmp_to_key() 定义，最为灵活

Exp4：统计字符串中每个字符出现的次数。

测试数组：sentence='life is short, i choose python'。

方法一

方法二

方法一耗时 2.8105250000000055s ，方法二耗时 1.6317423000000062s ，性能提升 41.94%

列表推导（list comprehension）短小精悍。在小代码片段中，可能没有太大的区别。但是在大型开发中，它可以节省一些时间。

Exp5：对列表中的奇数求平方，偶数不变。

测试数组：oldlist = range(10)。

方法一

方法二

方法一耗时 1.5342976000000021s ，方法二耗时 1.4181957999999923s ，性能提升 7.57%

大多数人都习惯使用 + 来连接字符串。但其实，这种方法非常低效。因为， + 操作在每一步中都会创建一个新字符串并复制旧字符串。更好的方法是用 join() 来连接字符串。关于字符串的其他操作，也尽量使用内置函数，如 isalpha() 、 isdigit() 、 startswith() 、 endswith() 等。

Exp6：将字符串列表中的元素连接起来。

测试数组：oldlist = ['life', 'is', 'short', 'i', 'choose', 'python']。

方法一

方法二

方法一耗时 0.27489080000000854s ，方法二耗时 0.08166570000000206s ，性能提升 70.29%

join 还有一个非常舒服的点，就是它可以指定连接的分隔符，举个例子

life//is//short//i//choose//python

Exp6：交换x，y的值。

测试数据：x, y = 100, 200。

方法一

方法二

方法一耗时 0.027853900000010867s ，方法二耗时 0.02398730000000171s ，性能提升 13.88%

在不知道确切的循环次数时，常规方法是使用 while True 进行无限循环，在代码块中判断是否满足循环终止条件。虽然这样做没有任何问题，但 while 1 的执行速度比 while True 更快。因为它是一种数值转换，可以更快地生成输出。

Exp8：分别用 while 1 和 while True 循环 100 次。

方法一

方法二

方法一耗时 3.679268300000004s ，方法二耗时 3.607847499999991s ，性能提升 1.94%

将文件存储在高速缓存中有助于快速恢复功能。Python 支持装饰器缓存，该缓存在内存中维护特定类型的缓存，以实现最佳软件驱动速度。我们使用 lru_cache 装饰器来为斐波那契函数提供缓存功能，在使用 fibonacci 递归函数时，存在大量的重复计算，例如 fibonacci(1) 、 fibonacci(2) 就运行了很多次。而在使用了 lru_cache 后，所有的重复计算只会执行一次，从而大大提高程序的执行效率。

Exp9：求斐波那契数列。

测试数据：fibonacci(7)。

方法一

方法二

方法一耗时 3.955014900000009s ，方法二耗时 0.05077979999998661s ，性能提升 98.72%

注意事项：

我被执行了（执行了两次 demo(1, 2) ，却只输出一次）

functools.lru_cache(maxsize=128, typed=False) 的两个可选参数：

点运算符( . )用来访问对象的属性或方法，这会引起程序使用 __getattribute__() 和 __getattr__() 进行字典查找，从而带来不必要的开销。尤其注意，在循环当中，更要减少点运算符的使用，应该将它移到循环外处理。

这启发我们应该尽量使用 from ... import ... 这种方式来导包，而不是在需要使用某方法时通过点运算符来获取。其实不光是点运算符，其他很多不必要的运算我们都尽量移到循环外处理。

Exp10：将字符串数组中的小写字母转为大写字母。

测试数组为 oldlist = ['life', 'is', 'short', 'i', 'choose', 'python']。

方法一

方法二

方法一耗时 0.7235491999999795s ，方法二耗时 0.5475435999999831s ，性能提升 24.33%

当我们知道具体要循环多少次时，使用 for 循环比使用 while 循环更好。

Exp12：使用 for 和 while 分别循环 100 次。

方法一

方法二

方法一耗时 3.894683299999997s ，方法二耗时 1.0198077999999953s ，性能提升 73.82%

Numba 可以将 Python 函数编译码为机器码执行，大大提高代码执行速度，甚至可以接近 C 或 FORTRAN 的速度。它能和 Numpy 配合使用，在 for 循环中或存在大量计算时能显著地提高执行效率。

Exp12：求从 1 加到 100 的和。

方法一

方法二

方法一耗时 3.7199997000000167s ，方法二耗时 0.23769430000001535s ，性能提升 93.61%

矢量化是 NumPy 中的一种强大功能，可以将操作表达为在整个数组上而不是在各个元素上发生。这种用数组表达式替换显式循环的做法通常称为矢量化。

在 Python 中循环数组或任何数据结构时，会涉及很多开销。NumPy 中的向量化操作将内部循环委托给高度优化的 C 和 Fortran 函数，从而使 Python 代码更加快速。

Exp13：两个长度相同的序列逐元素相乘。

测试数组：a = [1,2,3,4,5], b = [2,4,6,8,10]

方法一

方法二

方法一耗时 0.6706845000000214s ，方法二耗时 0.3070132000000001s ，性能提升 54.22%

若要检查列表中是否包含某成员，通常使用 in 关键字更快。

Exp14：检查列表中是否包含某成员。

测试数组：lists = ['life', 'is', 'short', 'i', 'choose', 'python']

方法一

方法二

方法一耗时 0.16038449999999216s ，方法二耗时 0.04139250000000061s ，性能提升 74.19%

itertools 是用来操作迭代器的一个模块，其函数主要可以分为三类：无限迭代器、有限迭代器、组合迭代器。

Exp15：返回列表的全排列。

测试数组：["Alice", "Bob", "Carol"]

方法一

方法二

方法一耗时 3.867292899999484s ，方法二耗时 0.3875405000007959s ，性能提升 89.98%

根据上面的测试数据，我绘制了下面这张实验结果图，可以更加直观的看出不同方法带来的性能差异。

从图中可以看出，大部分的技巧所带来的性能增幅还是比较可观的，但也有少部分技巧的增幅较小（例如编号5、7、8，其中，第 8 条的两种方法几乎没有差异）。

总结下来，我觉得其实就是下面这两条原则：

内置库函数由专业的开发人员编写并经过了多次测试，很多库函数的底层是用 C 语言开发的。因此，这些函数总体来说是非常高效的（比如 sort() 、 join() 等），自己编写的方法很难超越它们，还不如省省功夫，不要重复造轮子了，何况你造的轮子可能更差。所以，如果函数库中已经存在该函数，就直接拿来用。

有很多优秀的第三方库，它们的底层可能是用 C 和 Fortran 来实现的，像这样的库用起来绝对不会吃亏，比如前文提到的 Numpy 和 Numba，它们带来的提升都是非常惊人的。类似这样的库还有很多，比如Cython、PyPy等，这里我只是抛砖引玉。

原文链接：

网站栏目：python向量化函数向量化运算
网页路径：http://cqcxhl.com/article/hgoohj.html

重庆分公司，新征程启航

python向量化函数向量化运算

Python——ndarray多维数组基本操作（1）

优化Python编程的4个妙招

如何系统地自学 Python

对于Python 的科学计算有哪些提高运算速度的技

「干货」让Python性能起飞的15个技巧，你知道几个呢？

其他资讯

重庆分公司，新征程启航

python向量化函数 向量化运算

Python——ndarray多维数组基本操作（1）

优化Python编程的4个妙招

如何系统地自学 Python

对于Python 的科学计算有哪些提高运算速度的技

「干货」让Python性能起飞的15个技巧，你知道几个呢？

其他资讯

python向量化函数向量化运算