写在最前面:

本篇文章的内容基于Pandas的中文网站
只是对一些简单的用法进行整理,便于查找使用。对于更加深入的用法可以去上官网查询学习。

Pandas简介

Pandas 是 Python (opens new window)的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。

Pandas 适用于处理以下类型的数据:

  • 与 SQL 或 Excel 表类似的,含异构列的表格数据;
  • 有序和无序(非固定频率)的时间序列数据;
  • 带行列标签的矩阵数据,包括同构或异构型数据;
  • 任意其它形式的观测、统计数据集, 数据转入 Pandas 数据结构时不必事先标记。

Pandas的数据结构:

具体用法(学到哪记到哪)

csv文件操作(实例代码来自项目代码-Data_balance)

pd.read_csv(file,header=None,low_memory=Falie)

附上学习链接:https://zhuanlan.zhihu.com/p/340441922

代码作用:读取名字为file的csv文件,存储在DataFrame这个数据结构里,这是一个二维异构表格。
参数作用

  • header=None:告诉函数,我们读取的原始文件数据没有列索引。因此,read_csv为自动加上列索引。
  • low_memory=Falie:当读取的文件含义混合类型时使用。

注:read_csv()函数还有很多参数可以使用,可以更加高效的帮助我们完成数据处理工作。


pd.values.tolist()

附上学习链接:Pandas把dataframe或series转换成list的方法

函数作用:把dataframe类型转换为list列表。


NumPy模块

参考文章:https://www.numpy.org.cn/article/

理解NumPy

什么是NumPy?

NumPy是一个功能强大的Python库,主要用于对多维数组执行计算。
NumPy这个词来源于两个单词– NumericalPython

  • NumPy提供了大量的库函数操作,可以帮助程序员轻松地进行数值计算。这类数值计算广泛用于以下任务:
    机器学习模型:在编写机器学习算法时,需要对矩阵进行各种数值计算。例如矩阵乘法、换位、加法等。NumPy提供了一个非常好的库,用于简单(在编写代码方面)和快速(在速度方面)计算。NumPy数组用于存储训练数据和机器学习模型的参数。
  • 图像处理和计算机图形学:计算机中的图像表示为多维数字数组。NumPy成为同样情况下最自然的选择。实际上,NumPy提供了一些优秀的库函数来快速处理图像。例如,镜像图像、按特定角度旋转图像等。
  • 数学任务:NumPy对于执行各种数学任务非常有用,如数值积分、微分、内插、外推等。因此,当涉及到数学任务时,它形成了一种基于Python的MATLAB的快速替代

NumPy中的数组

NumPy提供的最重要的数据结构是一个称为NumPy数组的强大对象。NumPy数组是通常的Python数组的扩展。NumPy数组配备了大量的函数和运算符,可以帮助我们快速编写上面讨论过的各种类型计算的高性能代码。

绘图