作品简介

本书以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者的动手实践能力。同时,本书还介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic。

本书适用于Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书,供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的本科生和研究生参考使用;也可供企业网络爬虫开发人员参考使用。

钱洋,合肥工业大学管理科学与工程系博士、CSDN博客专家。作为技术人员参与过多个横向、纵向学术课题,负责数据采集系统的设计与开发工作。在CSDN(博客名称:HFUT_qianyang)上撰写了多篇关于数据采集、自然语言处理、编程语言等领域的原创博客。

姜元春,合肥工业大学教授、博士生导师。长期从事电子商务、商务智能、数据采集与挖掘等方面的理论研究与教学工作。先后主持过国家自然科学基金优秀青年科学基金项目、国家自然科学基金重大研究计划培育项目、国家自然科学基金青年科学基金项目、教育部人文社科青年基金项目、阿里巴巴青年学者支持计划、CCF-腾讯犀牛鸟基金项目等课题的研究工作。

作品目录

  • 内容简介
  • 前言
  • 第1章 网络爬虫概述与原理
  • 1.1 网络爬虫简介
  • 1.2 网络爬虫分类
  • 1.3 网络爬虫流程
  • 1.4 网络爬虫的采集策略
  • 1.5 学习网络爬虫的建议
  • 1.6 本章小结
  • 第2章 网络爬虫涉及的Java基础知识
  • 2.1 开发环境的搭建
  • 2.2 基本数据类型
  • 2.3 数组
  • 2.4 条件判断与循环
  • 2.5 集合
  • 2.6 对象与类
  • 2.7 String类
  • 2.8 日期和时间处理
  • 2.9 正则表达式
  • 2.10 Maven工程的创建
  • 2.11 log4j的使用
  • 2.12 本章小结
  • 第3章 HTTP协议基础与网络抓包
  • 3.1 HTTP协议简介
  • 3.2 URL
  • 3.3 报文
  • 3.4 HTTP请求方法
  • 3.5 HTTP状态码
  • 3.6 HTTP信息头
  • 3.7 HTTP响应正文
  • 3.8 网络抓包
  • 3.9 本章小结
  • 第4章 网页内容获取
  • 4.1 Jsoup的使用
  • 4.2 HttpClient的使用
  • 4.3 URLConnection与HttpURLConnection
  • 4.4 本章小结
  • 第5章 网页内容解析
  • 5.1 HTML解析
  • 5.2 XML解析
  • 5.3 JSON解析
  • 5.4 本章小结
  • 第6章 网络爬虫数据存储
  • 6.1 输入流与输出流
  • 6.2 Excel存储
  • 6.3 MySQL数据存储
  • 6.4 本章小结
  • 第7章 网络爬虫实战项目
  • 7.1 新闻数据采集
  • 7.2 企业信息采集
  • 7.3 股票信息采集
  • 7.4 本章小结
  • 第8章 Selenium的使用
  • 8.1 Selenium简介
  • 8.2 Java Selenium环境搭建
  • 8.3 浏览器的操控
  • 8.4 元素定位
  • 8.5 模拟登录
  • 8.6 动态加载JavaScript数据(操作滚动条)
  • 8.7 隐藏浏览器
  • 8.8 截取验证码
  • 8.9 本章小结
  • 第9章 网络爬虫开源框架
  • 9.1 Crawler4j的使用
  • 9.2 WebCollector的使用
  • 9.3 WebMagic的使用
  • 9.4 本章小结
展开全部