作品简介

本书是一本关于Python数据整理和数据质量的实用指南,主要介绍了如何使用Python进行数据清洗、转换和整合,以及如何确保数据的准确性和一致性。本书涵盖了数据整理基础、数据清洗、数据转换、数据整合、数据质量检查和数据可视化等内容。通过丰富的实例和代码示例,读者可以掌握Python数据整理和数据分析的相关技能。

无论你是数据分析师、数据科学家还是其他领域的数据从业者,本书都不仅能够帮助你提高工作效率,还能够让你更好地理解和应用数据科学相关的知识和技能。

苏珊·E.麦格雷戈(Susan E.McGregor)是哥伦比亚大学数据科学研究所的研究员,也是该研究所数据、媒体和社会中心的联合主管。十多年来,她一直在向非理工科的专业人士、研究生及本科生讲授编程与数据分析课程,并不断完善自己的教学方式。

作品目录

  • O'Reilly Media, Inc.介绍
  • 译者序
  • 前言
  • 第1章 数据整理与数据质量简介
  • 1.1 什么是数据整理
  • 1.2 什么是数据质量
  • 1.3 为什么选用Python语言整理数据
  • 1.4 编写并运行Python代码
  • 1.5 如何在自己的设备上编写Python代码
  • 1.6 在网页版的开发环境中编写Python代码
  • 1.7 编写“Hello World!”程序
  • 1.8 添加代码
  • 1.9 运行代码
  • 1.10 撰写文档、保存工作资料和管理不同版本的资料
  • 1.11 小结
  • 第2章 Python入门
  • 2.1 词性
  • 2.2 用循环结构与条件结构控制程序的走向
  • 2.3 代码中可能出现的各种错误
  • 2.4 用Citi Bike数据来演示如何编写数据整理程序
  • 2.5 小结
  • 第3章 了解数据质量
  • 3.1 判断数据是否合适
  • 3.2 判断数据是否完整
  • 3.3 提升数据的质量
  • 3.4 小结
  • 第4章 用Python处理基于文件与基于feed的数据
  • 4.1 结构化的数据与非结构化的数据
  • 4.2 处理结构化的数据
  • 4.3 以了解失业情况为例来整理现实数据
  • 4.4 处理非结构化的数据
  • 4.5 小结
  • 第5章 访问网络数据
  • 5.1 联网访问在线的XML与JSON数据
  • 5.2 API简介
  • 5.3 以搜索引擎为例讲解如何调用基本的API
  • 5.4 如何调用带有基本身份认证机制的API
  • 5.5 阅读API文档
  • 5.6 使用Python时保护你的API密钥
  • 5.7 如何调用带有OAuth认证机制的API
  • 5.8 调用API时所应遵循的行为准则
  • 5.9 获取数据的最后一招:网页抓取
  • 5.10 小结
  • 第6章 评估数据质量
  • 6.1 流行病与PPP
  • 6.2 评估数据的完整程度
  • 6.3 评估数据的适合程度
  • 6.4 小结
  • 第7章 清洗、转换和增强数据
  • 7.1 如何从Citi Bike数据中选取一部分内容
  • 7.2 把数据文件清洗干净
  • 7.3 把Excel表格中的日期处理好
  • 7.4 把定宽数据转换成真正的CSV文件
  • 7.5 修正拼写不一致的现象
  • 7.6 为了找到简单方案而走过的弯路
  • 7.7 一些容易出错的地方
  • 7.8 增强数据
  • 7.9 小结
  • 第8章 调整并重构代码
  • 8.1 重新思考自定义的函数
  • 8.2 什么是作用域
  • 8.3 为函数设计参数
  • 8.4 返回值
  • 8.5 以嵌套的形式调用函数
  • 8.6 既有趣又有用的重构
  • 8.7 用pydoc给自定义的脚本与函数撰写文档
  • 8.8 让Python脚本支持命令行参数
  • 8.9 命令行脚本与notebook的区别
  • 8.10 小结
  • 第9章 数据分析入门
  • 9.1 情境很重要
  • 9.2 常规与反常
  • 9.3 评估集中趋势
  • 9.4 另辟蹊径:识别异常值
  • 9.5 数据分析可视化
  • 9.6 这些200万美元的贷款记录是怎么回事
  • 9.7 注意按比例计算
  • 9.8 小结
  • 第10章 展示数据
  • 10.1 视觉说服力
  • 10.2 把整理数据后形成的观点表达出来
  • 10.3 如何选择图表
  • 10.4 视觉说服力要素
  • 10.5 通过 seaborn与matplotlib库自定义更好的可视化图表
  • 10.6 提高设计水平
  • 10.7 小结
  • 第11章 Python以外的工具
  • 11.1 查看数据的其他工具
  • 11.2 分享并展示数据的其他工具
  • 11.3 考虑原则问题
  • 11.4 小结
  • 附录A 其他Python编程资源
  • A.1 Python语言及各种Python库的官方文档
  • A.2 安装各种Python软件包
  • A.3 及时更新开发工具
  • A.4 如何继续寻找学习资料
  • 附录B 再讲一讲Git
  • B.1 执行git命令之后,进入了奇怪的编辑界面
  • B.2 git push或git pull命令遭到拒绝
  • B.3 Git命令速查
  • 附录C 获取数据的渠道
  • C.1 通过数据仓库与API获取数据
  • C.2 向主题专家询问数据
  • C.3 援引《信息自由法》来申请数据
  • C.4 自己收集数据
  • 附录D 与可视化及信息设计有关的资源
  • D.1 信息可视化的基础书籍
  • D.2 可以随时查阅的参考书籍
  • D.3 能够激发灵感的参考资料
  • 作者简介
  • 封面简介
展开全部