python部落(python.freelycode)组织翻译,禁止转载,欢迎转发。
最近几年,python在数据科学领域展现出极大的生命力。在这里,我们根据实践经验,列出一些对于数据科学家和工程师最常用的python库。
核心库
1、numpy
当我们用python来处理科学计算任务时,不可避免的要用到来自scipystack的帮助。scipystack是一个专为python中科学计算而设计的软件包,注意不要将它与scipy库搞混了,后者只是这个软件包中的一部分。接下来我们一块来看看这个软件包。通常这个软件包是非常大的,里面包含十几个库。但是,在这里我们将集中介绍最核心的库,尤其是最基础的。
numpy(表示numericalpython)是构建科学计算包最基础的库。它为python中n维数组和矩阵操作提供了大量有用的功能。这个库还支持numpy数组类型的向量化数学操作,能够改善计算性能,加快计算速度。
2、scipy
scipy是一个工程和科学计算的软件库。在这里,你需要再次理解scipystack和scipy库的不同。scipy包含许多和线性代数,数学优化,积分和统计有关的模块。scipy库的主要功能是构建在numpy上的,因为它使用了大量numpy库的数组。scipy通过其特有的子模块提供许多有关数值积分,优化和其它方面的例程,而且其子模块都有详细的功能说明。
3、pandas
pandas是一个python库,通过数据标记和数据之间的关系来进行工作,其特点是简单直观。它非常适合用于数据分析,可以快速简单的对数据进行操作,整合以及可视化。
来看下在这个库里主要的两种数据结构:
“series-一维数据结构
“dataframes”-二维数据结构
例如,当你想将这两种数据结构混合形成一个新的dataframe时,原来的series会追加在原来的dataframe后面:
这里列出用pandas可以很容易做的一些操作:
从dataframe中可以容易的删除和添加列将数据结构转换成dataframe对象将不存在的数据用nan替代强大的数据分组功能
可视化
4、matplotlib
matplotlib是scipystack核心软件包中的另一个python库,可以轻松的生成简单强大的数据可视化图。在numpy,scipy和pandas的基础上,matplotlib是构成python的一个强大的工具包,可以和科学计算工具matlab,mathematics等形成强大的竞争力。唯一不足的是这个库的层次比较低,要想实现高水平的数据可视化必须要付出更多的努力写更多的代码。不过,总的来说,它还是值得一试的。下面列出一些其常用的可视化图:
直线图散点图条形图和直方图饼状图茎叶图矢量图量场图频谱图
当然,还可以使用matplotlib来创建标签,网格,图例等其它与图形相关的操作,基本上,所有东西都是可以自定义的。这个库支持不同的平台,在相应的平台下会充分利用其对应的gui套件让结果可视化。此外,不同的ide(像ipython)都支持matplotlib的操作。当然还有一些其它的库使得数据可视化操作更加容易。
5、seaborn
seaborn主要用来统计模块的可视化操作,例如可以用其来显示热量图以反映数据的总体分布。此外,这个模块是构建在matplotlib上的,并且高度依赖它。
6、bokeh
另一个比较好的可视化包是bokeh,其主要致力于交互式可视。与前面介绍的那些库不一样的是,bokeh并不依赖于matplotlib,其可以通过现代浏览器以脚本(d3.js)的形式来展现最终的图形。
7、plotiy
最后,关于可视化python包的是plotly。它是基于web工具箱来构建可视化的,其开放api接口给一些编程语言,当然包括python。在plotly的网站上有一些强大的开箱即用的图形,在使用plotly的时候最好设置好你的api密匙,这些图形将会在服务器一端处理并且可以发布到互联网上,当然也可以不必如此。
机器学习
8、scikit-learn
scikits是scipystack另外的包,专门为图像处理和机器学习等特定功能而设计的。对于机器学习,其最杰出的包就是scikit-learn,这个包构建在scipy之上,大量使用了scipy的数学操作。
scikit-learn向一般的机器学习算法开放了一个简洁一致的接口,使得机器学习可以简单的推进到生产系统中。这个库包含了许多高质量的代码和好的说明文档,非常容易使用,事实上,可以说是用python学习机器学习的行业标准了。
深度学习-keras/tensorflow/theano
在深度学习方面,python中最突出和最方便的库就是keras了,它可以说在tensorflow和theano功能之上。接下来,让我们看一下它们的一些细节。
9、theano
首先是theano,它和numpy类似都定义了多维数组,同时还有一些其它的数学操作与表达式。这个库是编译过的,可以高效的运行在各种架构上。它最初是由蒙特利尔大学机器学习小组开发的,主要用于机器学习。
有一点需要指出的是,theano和numpy在低层次的操作上有着紧密的结合。而且它还充分优化了gpu和cpu的使用,在数据密集型计算方面速度更快。在效率和稳定性方面的优化使得其可以计算更加精确的结果甚至是非常小的值。例如在计算log(1+x)时,可以给出x的最小值以及最终的结果。
10、tensorflow
tensorflow来自谷歌的开发小组,是一个基于数据流图计算的开源库,它强化了机器学习,旨在满足google环境对训练神经网络的高需求,可以看做是基于神经网络机器学习系统distcelief的继任者。此外,tensorflow不仅用在google科学计算,也可以满足实际应用的要求。tensorflow的关键特点是其多层节点系统,可以在大型数据集上快速训练人工神经网络。这为google的语音识别和图像对象识别提供了支持。
11、keras
最后,让我们来看下keras。keras是用纯python写的高层神经网络开源库,具有简单易懂的高级扩展性。它用theano和tensorflow作为其后端,但是微软现在将cntk(微软的认知工具包)集成为新的后端。keras在设计中的简约方法旨在通过建立紧凑的系统来进行快速和容易的实验。
keras是非常容易上手的,而且一直在其原型上不断地发展改进,具有高度的模块化和扩展性。抛开它的轻便,简洁以及高度模块化,keras还是构建复杂模型的有力工具。
自然语言处理
12、nltk
nltk是naturallanguagetoolkit的缩写,顾名思义,它是用来处理符号和统计自然语言处理的任务。nltk旨在促进nlp及其相关领域(语言学,认知科学人工智能等)的教学与研究,目前正受到广泛的关注。
nltk的功能允许很多操作,例如支持文本标记,分类,实体标识,建立语言树来显示句子间内的依赖关系等各种常用功能。所有的构件块都可以为不同的任务构建复杂的研究系统,例如情绪分析,自动总结等。
13、gensim
gensim是一个在python中实现的成熟的开源向量空间建模和主题建模工具包。它不仅可以用来进行内存处理,更适用于处理大型文本集。而且其通过使用numpy和scipy的数据结构极大的提高了执行性能,是非常高效和容易使用的。
gensim旨在与原始非结构化数字文本一起使用。其实现了诸如分层dirichlet进程(hdp),潜在语义分析(lsa)和潜在dirichlet分配(lda)之类的算法,以及tf-idf,随机投影,word2vec和document2vec用于于检查文本中的重复文本的一组文件(通常称为语料库)。这里所有的算法都是无监督的,不需要添加任何参数,唯一的输入就是语料库。
数据挖掘与统计
14、scrapy
scrapy是用于从网络上检索结构化数据(如联系人信息或url)的爬行程序库(也称为蜘蛛机器人)。它是开源的,也是用python编写的,并严格按照其名称所示的方式进行设计。现在它已经在完整的框架中发展,能够从api中采集数据并作为通用的爬虫。
这个库以其著名的设计原则“不要重复代码”来提示用户重构那些将要重复使用的通用代码,因此,这通常用来构建和扩展大型爬虫。scrapy的架构紧紧围绕着spider类来构建,其包含了爬行器跟踪的一套指令。
15、statsmodels
正如你从名字中看出的那样,statsmodels是一个python库,旨在让用户通过使用各种统计模型来进行数据挖掘与分析。实际中许多有用的特征都是描述性的,其结果可以通过使用线性回归模型,广义线性模型,离散选择模型,鲁棒线性模型,时间序列分析模型来进行统计估量。这个库还提供了广泛的绘图功能,专门用于统计分析和大数据统计数据。
总结
以上这些库被许多数据科学家和工程师认为是数据学习不可缺少的,如果不能做到熟练使用这些库,那么最好还是要熟悉它们。
下面是这些库在github上活跃程度的统计表:
当然,这里不能列出全部的列表,还有许多其它不错的库,工具包,框架都是值得学习的。有一点比较好的是,不同的scikit软件包专注于不同的领域,例如专门用于图像处理的scikit-image库。
所以,如果你要是有比较好用的python库,请在评论栏里让我们的读者都知道。感谢关注!
英文原文:https://activewizards/blog/top-15-libraries-for-data-science-in-python/译者:咋家