网络爬虫开发电子书免费在线阅读,免费在线试读,作者：纪娜张笑

书名
网络爬虫开发
作者纪娜张笑
出版社上海交通大学出版社 / 2023-11
字数约 87,000 字
全本定价￥29.90

作品简介

本书共有八个项目，围绕网络爬虫三部曲“爬取—解析—存储”较为全面地介绍关于不同场景下利用Python爬取网络数据的基础知识和方法，让读者通过编写简单的静态爬虫和动态爬虫，使用Scrapy爬虫框架完成对爬虫理论和实践技能的学习。内容分为基础知识篇、中阶知识篇和实战篇。项目一至项目三介绍爬虫的基本概念、网页基础知识和Python基本语法等；项目四和项目五利用实例演示介绍有关爬取库、解析库等爬虫中阶知识；项目六至项目八则是实战篇，主要介绍数据存储的实例和利用动态网页爬取数据的综合案例，再次完整展现爬虫三部曲“爬取—解析—存储”，以及Scrapy爬虫框架的概念和实施。

本书面向对网络爬虫技术感兴趣的读者，介绍了使用Python语言编写爬虫的各种技巧和方法，可供大数据技术等相关专业的学生参考使用，也可作为大数据技术爱好者的自学用书。

主编：纪娜，张笑

作品目录

《网络爬虫开发》编委会
前言
爬虫基础篇
项目一初识爬虫
任务一认识网络爬虫
任务二网络爬虫的合法性与robots协议
任务三认识反爬虫
任务四拓展知识
内容小结
课后习题
实施评量单
项目二 Web基础
任务一 HTTP基本原理
任务二网页基础
任务三会话和cookie机制
任务四谷歌浏览器开发者工具
任务五拓展知识
内容小结
实训任务
课后习题
实施评量单
项目三 Python语言基础
任务一认识Python语言并搭建开发环境
任务二 Python基础语法
任务三 Python常用语句
任务四字符串与正则表达式
任务五列表、元组和字典
任务六拓展知识Python函数
内容小结
课后习题
实施评量单
爬虫中阶篇
项目四常用的网络请求库
任务一认识HTTP请求
任务二 urllib网络请求库
任务三 requests网络请求库
任务四拓展知识：httpx请求库
内容小结
实训任务
课后习题
实施评量单
项目五网页数据的解析提取
任务一网络解析基础
任务二用XPath解析网页
任务三使用Beautiful Soup解析网页
任务四 PyQuery解析库
任务五拓展知识：正则表达式的解析
内容小结
实训任务
课后习题
实施评量单
爬虫实战篇
项目六数据存储
任务一数据存储在文本文件中
任务二综合任务——“智游陕西，畅享三秦”，爬取陕西热门景点数据
任务三关系型数据库
任务四使用Python连接MySQL数据库进行读写操作
任务五拓展知识：MongoDB数据库
内容小结
实训任务
实施评量单
项目七常规动态网页爬取
任务一逆向分析爬取动态网页
任务二 Selenium的安装与使用
任务三 AJAX的使用
任务四综合任务——使用Selenium进行岗位信息和岗位需求爬取
内容小结
实训任务
课后习题
实施评量单
项目八 Scrapy爬虫框架
任务一 Scrapy的安装与使用
任务二综合任务——爬取豆瓣电影Top250信息
内容小结
课后习题
实施评量单
参考文献

展开全部