Python数据分析-数据加载、存储与文件格式
Contents
访问数据通常是数据分析的第一步。
数据输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。
pandas库提供了一些用于将表格型数据读取为DataFrame对象的函数。下表对它们进行了总结,注意其中read_csv和read_table可能会是我们以后用得最多的。
读写文本格式的数据
二进制数据格式
实现数据的高效二进制格式存储最简单的办法之一是使用Python内置的pickle序列化。pandas对象都有一个用于将数据以pickle格式保存到磁盘上的to_pickle方法。
使用HDF5格式
HDF5是一种存储大规模科学数组数据的非常好的文件格式。它可以被作为C标准库,带有许多语言的接口,如Java、Python和MATLAB等。HDF5中的HDF指的是层次型数据格式(hierarchical data format)。每个HDF5文件都含有一个文件系统式的节点结构,它使你能够存储多个数据集并支持元数据。与其他简单格式相比,HDF5支持多种压缩器的即时压缩,还能更高效地存储重复模式数据。对于那些非常大的无法直接放入内存的数据集,HDF5就是不错的选择,因为它可以高效地分块读写。
读取Microsoft Excel文件
pandas的ExcelFile类或pandas.read_excel函数支持读取存储在Excel 2003(或更高版本)中的表格型数据。这两个工具分别使用扩展包xlrd和openpyxl读取XLS和XLSX文件。你可以用pip或conda安装它们。
Web APIs交互
许多网站都有一些通过JSON或其他格式提供数据的公共API。通过Python访问这些API的办法有不少。一个简单易用的办法(推荐)是requests包(http://docs.pythonrequests.org)。
数据库交互
在商业场景下,大多数数据可能不是存储在文本或Excel文件中。基于SQL的关系型数据库(如SQL Server、PostgreSQL和MySQL等)使用非常广泛,其它一些数据库也很流行。数据库的选择通常取决于性能、数据完整性以及应用程序的伸缩性需求
参考资料
- 利用Python进行数据分析第二版
相关文章
- python 删除文件、目录_python如何删除文件、目录[通俗易懂]
- 用python画圣诞树、樱花树、卡通图案及打包成exe文件[通俗易懂]
- Python之文件操作大全
- 一文搞定Python读取文件的全部知识
- Python-基础06-文件操作
- python读取txt中的一列称为_python读取txt文件并取其某一列数据的示例
- python进入文件目录 命令_python创建目录
- python删除文本最后一行_用python删除文件中的最后一行
- python 删除文件、清空目录的方法总结
- 为什么python读取不了文件_python系统找不到指定文件怎么办
- 2022年最新Python大数据之Python基础【八】文件的操作与类
- Python删除文件中重复的内容「建议收藏」
- python秒起https 文件服务器
- python将py文件编译成exe文件_怎么把python程序打包成可执行文件
- python强制删除文件夹_python删除文件夹下的文件保留但清空子文件夹
- python读写、创建文件、文件夹等等
- python 去掉文件后缀名,python 删除后缀名文件
- python读取txt文件,将文件中第一列显示出来「建议收藏」
- 如何使用python删除一个文件?
- 通过Kivy将Python文件打包成apk