作品简介

本书首先介绍数据分析的方法论,然后介绍数据分析的相关模型方法,并进一步通过数据分析案例,讲解数据分析的思维、方法及模型实现过程。本书重点介绍R语言在数据分析方面的应用,让读者能够快速地使用R语言进行数据分析、构建模型。

本书分为17章,内容包括:使用R语言获取数据、数据分析中的数据处理与数据探索、生存分析、主成分分析、多维缩放、线性回归模型、逻辑回归模型、聚类模型、关联规则、随机森林、支持向量机、神经网络、文本挖掘、社交网络分析,以及H2O机器学习和R语言爬虫这两个关于R语言数据分析的两个延伸内容。

米霖,毕业于华农业大学,本科数学专业,研究生统计学专业,8年R语言项目经验,擅长机器学习、统计模型。曾开发了多门R语言相关课程,课程包括“Shiny初级教程”“R包开发”“H2O机器学习模型”“信用评分模型开发”“R语言文本挖掘”等,学员累计超过5000人。完成过很多数据分析项目,例如广告虚假流量识别项目(通过虚假流量数据的挖掘帮助企业节省了上百万元的营销成本)、信贷中的信用评分项目、电商风控项目等。

作品目录

  • 作者简介
  • 内容简介
  • 前言
  • 第1章 数据分析项目的流程
  • 1.1 数据分析项目中的角色
  • 1.2 数据分析项目的阶段
  • 1.3 总结
  • 第2章 数据的读取
  • 2.1 RData数据
  • 2.2 readr高效读取数据
  • 2.3 读取Excel数据
  • 2.4 读取SPSS、SAS、STATA数据
  • 2.5 R语言操作数据库
  • 2.6 总结
  • 第3章 数据探索
  • 3.1 缺失值的识别与处理
  • 3.2 异常值
  • 3.3 dlookr数据处理包
  • 3.4 数据相关性
  • 3.5 自动化创建数据探索报告
  • 3.6 总结
  • 第4章 生存分析
  • 4.1 生存分析的基本内容
  • 4.2 使用R语言进行生存分析
  • 4.3 非参数模型
  • 4.4 半参数模型生存分析方法
  • 4.5 参数模型
  • 4.6 随机生存森林模型
  • 4.7 总结
  • 第5章 主成分分析
  • 5.1 概述
  • 5.2 主成分分析详解
  • 5.3 使用R语言进行主成分分析
  • 5.4 总结
  • 第6章 多维缩放
  • 6.1 MDS的工作原理
  • 6.2 在R语言中实现MDS
  • 6.3 MDS的优点
  • 6.4 总结
  • 第7章 线性回归模型
  • 7.1 线性回归模型概述
  • 7.2 在R语言中实现回归模型
  • 7.3 总结
  • 第8章 逻辑回归模型
  • 8.1 逻辑回归的原理
  • 8.2 在R语言中实现逻辑回归模型
  • 8.3 总结
  • 第9章 聚类模型
  • 9.1 概述
  • 9.2 在R语言中实现聚类模型
  • 9.3 总结
  • 第10章 关联规则
  • 10.1 关联规则概述
  • 10.2 关联规则的基本概念
  • 10.3 在R语言中实现关联规划
  • 10.4 总结
  • 第11章 随机森林
  • 11.1 随机森林的基本概念
  • 11.2 在R语言中实现随机森林
  • 11.3 总结
  • 第12章 支持向量机
  • 12.1 概述
  • 12.2 在R语言中实现支持向量机
  • 12.3 总结
  • 第13章 神经网络
  • 13.1 概述
  • 13.2 在R语言中实现神经网络
  • 13.3 总结
  • 第14章 文本挖掘
  • 14.1 概述
  • 14.2 text2vec背景及其基本原理
  • 14.3 DTM与TFIDF的原理和实现
  • 14.4 情感分析
  • 14.5 LDA主题模型及其实现
  • 14.6 构建自动问答系统
  • 14.7 总结
  • 第15章 社交网络分析
  • 15.1 社交网络概述
  • 15.2 igraph简介
  • 15.3 社交网络的常见结构
  • 15.4 社交网络分析算法
  • 15.5 微博社交群体分析
  • 15.6 总结
  • 第16章 H2O机器学习
  • 16.1 H2O机器学习平台
  • 16.2 在R语言中使用H2O
  • 16.3 H2O Flow
  • 16.4 总结
  • 第17章 R语言爬虫
  • 17.1 快速爬取网页数据
  • 17.2 rvest简介
  • 17.3 爬取BOSS直聘数据
  • 17.4 模拟登录
  • 17.5 总结
展开全部