文章目录
Python 数据分析第三方库分析
使用原因:Python 可用于数据分析,但其单纯依赖 Python 本身自带的库进行数据分析还是具有一定的局限性的,需要安装第三方扩展库来增强分析和挖掘能力。
Python 数据分析第三方扩展库: Numpy
、 Pandas
、 SciPy
、 Matplotlib
、 Scikit-Learn
、 Keras
、 Gensim
、 Scrapy
等
@常用库下载地址
1 网络爬虫
requests:https://pypi.org/project/requests/ 简洁且简单的处理 HTTP 请求的第三方库
scrapy:https://scrapy.org/ 快速、高层次的 Web 获取框架
2 数据分析
numpy:http://www.numpy.org/ 开源数值计算扩展第三方库
scipy:https://pypi.org/project/scipy/ 专为科学以及工程计算的第三方库
pandas:http://pandas.pydata.org/ 可高效地操作大型数据集的第三方库
3 文本处理
pdfminer:https://pypi.org/project/pdfminer/ 从 PDF 文档中提取各类信息的第三方库
openpyxl:https://pypi.org/project/openpyxl/ 处理 Microsoft Excel 文档的 Python 第三方库
python-docx:https://pypi.org/project/python-docx/ 处理 Microsoft Word 文档的 Python 第三方库
beautifulsoup4:https://pypi.org/project/beautifulsoup4/ 从 HTML 和 XML 文件中解析出数据的第三方库
4 用户图形界面
PyQt5:https://pypi.org/project/PyQt5/ 成熟的商业级 GUI 第三方库
wxpython:https://pypi.org/project/wxPython/ 优秀的 GUI 图形库
pygtk:https://pypi.org/project/PyGTK/ 轻松创建具有图形用户界面程序的第三方库
5 机器学习
Scikit-learn:https://scikit-learn.org/stable/ 简单且高效的数据挖掘和数据分析工具
Tensorflow:https://pypi.org/project/tensorflow/ 人工智能学习系统
Theano :http://deeplearning.net/software/theano/ 执行深度学习中大规模神经网络算法的运算
6 Web 开发
Django:https://pypi.org/project/Django/ 最流行的开源 Web 应用框架
Pyramid:https://pypi.org/project/pyramid/ 通用、开源的 Python Web 应用程序开发框架
Flask:https://pypi.org/project/Flask/ 轻量级 Web 应用框架
7 游戏开发
Pygame:https://www.python.org/ 面向游戏开发入门的 Python 第三方库
Panda3D:http://www.panda3d.org/ 开源、跨平台的 3D 渲染和游戏开发库
cocos2d:https://pypi.org/project/cocos2d/ 构建 2D 游戏和图形界面交互式应用的框架
8 数据可视化
Matplotlib:https://matplotlib.org/ 提供数据绘图功能的第三方库,主要进行二维图表数据展示
TVTK:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 图形应用函数库,是专业可编程的三维可视化工具
mayavi:https://pypi.org/project/mayavi/ 方便实用的可视化软件
1 Numpy
- 提供数组支持以及相应的高效处理函数,是 Python 数据分析的基础,也是 SciPy、Pandas 等数据处理和科学计算库最基本的函数功能库。
2 Matplotlib
- 强大的数据可视化工具和作图库,是主要用于绘制数据图表的 Python 库,提供了绘制各类可视化图形的命令字库、简单的接口,可以方便用户轻松掌握图形的格式,绘制各类可视化图形。
- 基于 Numpy 的一套 Python 包,这个包提供了吩咐的数据绘图工具,主要用于绘制一些统计图形。
- 有一套允许定制各种属性的默认设置,可以控制 Matplotlib 中的每一个默认属性:图像大小、每英寸点数、线宽、色彩和样式、子图、坐标轴、网格属性、文字和文字属性。
3 Pandas
- 最初被用作金融数据分析工具而开发出来,因此 Pandas 为时间序列分析提供了很好的支持
- 为了解决数据分析任务而创建的,Pandas 纳入了大量的库和一些标准的数据模型,提供了高效的操作大型数据集所需要的工具。
- 带有坐标轴的数据结构,支持自动或明确的数据对齐。这能防止由于数据结构没有对齐,以及处理不同来源、采用不同索引的数据而产生的常见错误。
4 SciPy
- 一组专门解决科学计算中各种标准问题域的包的集合,包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算等
- 包括统计、优化、整合、线性代数模块、傅里叶变换、信号和图像处理、常微分方程求解器等。Scipy 依赖于 Numpy,并提供许多对用户友好的和有效的数值例程,如数值积分和优化。
5 Scikit-Learn
- Python 常用的机器学习工具包,提供了完善的机器学习工具箱,支持数据预处理、分类、回归、聚类、预测和模型分析等强大机器学习库,其依赖于 Numpy、Scipy 和 Matplotlib 等。
- 主要功能分为六个部分,分类、回归、聚类、数据降维、模型选择、数据预处理。
- 自带一些经典的数据集,比如用于分类的 iris 和 digits 数据集,还有用于回归分析的 boston house prices 数据集。该数据集是一种字典结构,数据存储在.data 成员中,输出标签存储在.target 成员中。
- Scikit-Learn 还有一些库,比如:用于自然语言处理的 Nltk、用于网站数据抓取的 Scrappy、用于网络挖掘的 Pattern、用于深度学习的 Theano 等。
6 Keras
- 深度学习库,人工神经网络和深度学习模型,基于 Theano 之上,依赖于 Numpy 和 Scipy,利用它可以搭建普通的神经网络和各种深度学习模型,如语言处理、图像识别、自编码器、循环神经网络、递归审计网络、卷积神经网络等。
7 Gensim
- 用来做文本主题模型的库,常用于处理语言方面的任务,支持 TF-IDF、LSA、LDA 和 Word2Vec 在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算、信息检索等一些常用任务的 API 接口。
8 Scrapy
- 专门为爬虫而生的工具,具有 URL 读取、HTML 解析、存储数据等功能,可以使用 Twisted 异步网络库来处理网络通讯,架构清晰,且包含了各种中间件接口,可以灵活的完成各种需求。
总结
Python 能直接处理数据,而 Pandas 几乎可以像 SQL 那样对数据进行控制。Matplotlib 能够对数据和记过进行可视化,快速理解数据。Scikit-Learn 提供了机器学习算法的支持,Theano 提供了升读学习框架(还可以使用 CPU 加速)。