作品简介

本书以Python中的pandas库为主线,介绍各类数据处理与分析方法。本书共包含13章,第一部分介绍NumPy和pandas的基本内容;第二部分介绍pandas库中的4类操作,包括索引、分组、变形和连接;第三部分介绍基于pandas库的4类数据,包括缺失数据、文本数据、分类数据和时间序列数据,并介绍这4类数据的处理方法;第四部分介绍数据观测、特征工程和性能优化的相关内容。本书以丰富的练习为特色,每章的最后一节为习题,同时每章包含许多即时性的练习(练一练)。读者可通过这些练习将对数据科学的宏观认识运用到实践中。

本书适合具有一定Python编程基础、想要使用pandas进行数据处理与分析的数据科学领域的从业者或研究人员阅读。

耿远昊,威斯康星大学麦迪逊分校统计学硕士在读,Datawhale成员,“Joyful Pandas”开源项目作者。pandas贡献者,活跃于pandas开源社区,主要贡献涉及漏洞修复、功能实现与性能优化等方面,对pandas在数据处理与分析中的应用有丰富经验。

作品目录

  • 内容提要
  • 前  言
  • 资源与支持
  • 彩  图
  • 第一部分 基础知识
  • 第1章 预备知识
  • 1.1 Python基础
  • 1.2 NumPy基础
  • 1.3 习题
  • 第2章 pandas基础
  • 2.1 文件的读取和写入
  • 2.2 基本数据结构
  • 2.3 常用基本函数
  • 2.4 窗口
  • 2.5 习题
  • 第二部分 4类操作
  • 第3章 索引
  • 3.1 单级索引
  • 3.2 多级索引
  • 3.3 常用索引方法
  • 3.4 习题
  • 第4章 分组
  • 4.1 分组模式及其对象
  • 4.2 聚合函数
  • 4.3 变换和过滤
  • 4.4 跨列分组
  • 4.5 习题
  • 第5章 变形
  • 5.1 长宽表的变形
  • 5.2 其他变形方法
  • 5.3 习题
  • 第6章 连接
  • 6.1 关系连接
  • 6.2 其他连接
  • 6.3 习题
  • 第三部分 4类数据
  • 第7章 缺失数据
  • 7.1 缺失值的统计和删除
  • 7.2 缺失值的填充和插值
  • 7.3 Nullable类型
  • 7.4 习题
  • 第8章 文本数据
  • 8.1 str对象
  • 8.2 正则表达式基础
  • 8.3 文本处理的5类操作
  • 8.4 其他字符串方法
  • 8.5 习题
  • 第9章 分类数据
  • 9.1 cat对象
  • 9.2 有序类别
  • 9.3 区间类别
  • 9.4 习题
  • 第10章 时间序列数据
  • 10.1 时间戳
  • 10.2 时间差
  • 10.3 日期偏置
  • 10.4 时间序列操作
  • 10.5 习题
  • 第四部分 进阶实战
  • 第11章 数据观测
  • 11.1 可视化方法
  • 11.2 数据观测方法
  • 11.3 习题
  • 第12章 特征工程
  • 12.1 单特征构造
  • 12.2 多特征构造
  • 12.3 特征选择
  • 12.4 习题
  • 第13章 性能优化
  • 13.1 pandasic代码要义
  • 13.2 多进程加速
  • 13.3 利用Cython加速
  • 13.4 利用Numba加速
  • 13.5 习题
展开全部