pandas数据处理与分析电子书免费在线阅读,免费在线试读,作者：耿远昊

书名
pandas数据处理与分析
实战式pandas教程，梳理pandas中常用的函数，结合大量代码讲解理论知识
作者耿远昊
出版社人民邮电出版社 / 2022-07
ISBN书号9787115583659
字数约 157,000 字
全本定价￥62.72

作品简介

本书以Python中的pandas库为主线，介绍各类数据处理与分析方法。本书共包含13章，第一部分介绍NumPy和pandas的基本内容；第二部分介绍pandas库中的4类操作，包括索引、分组、变形和连接；第三部分介绍基于pandas库的4类数据，包括缺失数据、文本数据、分类数据和时间序列数据，并介绍这4类数据的处理方法；第四部分介绍数据观测、特征工程和性能优化的相关内容。本书以丰富的练习为特色，每章的最后一节为习题，同时每章包含许多即时性的练习（练一练）。读者可通过这些练习将对数据科学的宏观认识运用到实践中。

本书适合具有一定Python编程基础、想要使用pandas进行数据处理与分析的数据科学领域的从业者或研究人员阅读。

耿远昊，威斯康星大学麦迪逊分校统计学硕士在读，Datawhale成员，“Joyful Pandas”开源项目作者。pandas贡献者，活跃于pandas开源社区，主要贡献涉及漏洞修复、功能实现与性能优化等方面，对pandas在数据处理与分析中的应用有丰富经验。

作品目录

内容提要
前　　言
资源与支持
彩图
第一部分　基础知识
第1章　预备知识
1.1　Python基础
1.2　NumPy基础
1.3　习题
第2章　pandas基础
2.1　文件的读取和写入
2.2　基本数据结构
2.3　常用基本函数
2.4　窗口
2.5　习题
第二部分　4类操作
第3章　索引
3.1　单级索引
3.2　多级索引
3.3　常用索引方法
3.4　习题
第4章　分组
4.1　分组模式及其对象
4.2　聚合函数
4.3　变换和过滤
4.4　跨列分组
4.5　习题
第5章　变形
5.1　长宽表的变形
5.2　其他变形方法
5.3　习题
第6章　连接
6.1　关系连接
6.2　其他连接
6.3　习题
第三部分　4类数据
第7章　缺失数据
7.1　缺失值的统计和删除
7.2　缺失值的填充和插值
7.3　Nullable类型
7.4　习题
第8章　文本数据
8.1　str对象
8.2　正则表达式基础
8.3　文本处理的5类操作
8.4　其他字符串方法
8.5　习题
第9章　分类数据
9.1　cat对象
9.2　有序类别
9.3　区间类别
9.4　习题
第10章　时间序列数据
10.1　时间戳
10.2　时间差
10.3　日期偏置
10.4　时间序列操作
10.5　习题
第四部分　进阶实战
第11章　数据观测
11.1　可视化方法
11.2　数据观测方法
11.3　习题
第12章　特征工程
12.1　单特征构造
12.2　多特征构造
12.3　特征选择
12.4　习题
第13章　性能优化
13.1　pandasic代码要义
13.2　多进程加速
13.3　利用Cython加速
13.4　利用Numba加速
13.5　习题

展开全部