鱼小二 发表于 2018-2-7 17:24:04

【进阶】《精通Python网络爬虫:核心技术、框架与项目实战》

本帖最后由 鱼小二 于 2018-2-9 18:27 编辑



书名:《精通Python网络爬虫:核心技术、框架与项目实战》
作者:韦玮
出版社:机械工业出版社
出版年:第1版 (2017年3月1日)
定价:69.00
装帧:平装
ISBN:9787111562085


购买链接:

亚马逊 -> 传送门

当当网 -> 传送门

京东 -> 传送门

天猫 -> 传送门


内容简介:

      这是一本实战性的网络爬虫秘笈,不仅讲解了如何编写爬虫,而且还讲解了流行的网络爬虫的使用。全书分为4个部分:第壹部分对网络爬虫做了概要性的介绍,主要介绍了网络爬虫的常识和所涉及的技术概览;第二部分是本书的重点之一,详细讲解了网络爬虫的核心技术,包括网络爬虫的实现原理与实现技术、Urllib库和URLError库的异常处理、正则表达式与Cookie的使用、Fiddler的使用、爬虫的浏览器伪装技术、爬虫的定向抓取技术等;第三部分讲解了流行的爬虫框架Scrapy的使用、架构和高级应用,是目前关于Scrapy详细的讲解;第四部分是3个实战案例,讲解了博客爬虫、图片爬虫和模拟登陆爬虫的编写方法。


目录:

前言

★ 第一篇 理论基础篇

第1章 什么是网络爬虫 3
1.1初识网络爬虫3
1.2为什么要学网络爬虫4
1.3网络爬虫的组成5
1.4网络爬虫的类型6
1.5爬虫扩展——聚焦爬虫7
1.6小结8

第2章 网络爬虫技能总览 9
2.1网络爬虫技能总览图9
2.2搜索引擎核心10
2.3用户爬虫的那些事儿11
2.4小结12

★ 第二篇 核心技术篇

第3章 网络爬虫实现原理与实现技术 15
3.1网络爬虫实现原理详解15
3.2爬行策略17
3.3网页更新策略18
3.4网页分析算法20
3.5身份识别21
3.6网络爬虫实现技术21
3.7实例——metaseeker22
3.8小结27

第4章 Urllib库与URLError异常处理 29
4.1什么是Urllib库29
4.2快速使用Urllib爬取网页30
4.3浏览器的模拟——Headers属性34
4.4超时设置37
4.5HTTP协议请求实战39
4.6代理服务器的设置44
4.7DebugLog实战45
4.8异常处理神器——URLError实战46
4.9小结51

第5章 正则表达式与Cookie的使用 52
5.1什么是正则表达式52
5.2正则表达式基础知识52
5.3正则表达式常见函数61
5.4常见实例解析64
5.5什么是Cookie66
5.6Cookiejar实战精析66
5.7小结71

第6章 手写Python爬虫 73
6.1图片爬虫实战73
6.2链接爬虫实战78
6.3糗事百科爬虫实战80
6.4微信爬虫实战82
6.5什么是多线程爬虫89
6.6多线程爬虫实战90
6.7小结98

第7章 学会使用Fiddler 99
7.1什么是Fiddler99
7.2爬虫与Fiddler的关系100
7.3Fiddler的基本原理与基本界面100
7.4Fiddler捕获会话功能102
7.5使用QuickExec命令行104
7.6Fiddler断点功能106
7.7Fiddler会话查找功能111
7.8Fiddler的其他功能111
7.9小结113

第8章 爬虫的浏览器伪装技术 114
8.1什么是浏览器伪装技术114
8.2浏览器伪装技术准备工作115
8.3爬虫的浏览器伪装技术实战117
8.4小结121

第9章 爬虫的定向爬取技术 122
9.1什么是爬虫的定向爬取技术122
9.2定向爬取的相关步骤与策略123
9.3定向爬取实战124
9.4小结130

★ 第三篇 框架实现篇

第10章 了解Python爬虫框架 133
10.1什么是Python爬虫框架133
10.2常见的Python爬虫框架133
10.3认识Scrapy框架134
10.4认识Crawley框架135
10.5认识Portia框架136
10.6认识newspaper框架138
10.7认识Python—goose框架139
10.8小结140

第11章 爬虫利器——Scrapy安装与配置 141
11.1在Windows7下安装及配置Scrapy实战详解141
11.2在Linux(Centos)下安装及配置Scrapy实战详解147
11.3在MAC下安装及配置Scrapy实战详解158
11.4小结161

第12章 开启Scrapy爬虫项目之旅 162
12.1认识Scrapy项目的目录结构162
12.2用Scrapy进行爬虫项目管理163
12.3常用工具命令166
12.4实战:Items的编写181
12.5实战:Spider的编写183
12.6XPath基础187
12.7Spider类参数传递188
12.8用XMLFeedSpider来分析XML源191
12.9学会使用CSVFeedSpider197
12.10Scrapy爬虫多开技能200
12.11避免被禁止206
12.12小结212

第13章 Scrapy核心架构 214
13.1初识Scrapy架构214
13.2常用的Scrapy组件详解215
13.3Scrapy工作流217
13.4小结219

第14章 Scrapy中文输出与存储 220
14.1Scrapy的中文输出220
14.2Scrapy的中文存储223
14.3输出中文到JSON文件225
14.4小结230

第15章 编写自动爬取网页的爬虫 231
15.1实战:items的编写231
15.2实战:pipelines的编写233
15.3实战:settings的编写234
15.4自动爬虫编写实战234
15.5调试与运行239
15.6小结242

第16章 CrawlSpider 243
16.1初识CrawlSpider243
16.2链接提取器244
16.3实战:CrawlSpider实例245
16.4小结249

第17章 Scrapy高级应用 250
17.1如何在Python3中操作数据库250
17.2爬取内容写进MySQL254
17.3小结259

★ 第四篇 项目实战篇

第18章 博客类爬虫项目 263
18.1博客类爬虫项目功能分析263
18.2博客类爬虫项目实现思路264
18.3博客类爬虫项目编写实战264
18.4调试与运行274
18.5小结275

第19章 图片类爬虫项目 276
19.1图片类爬虫项目功能分析276
19.2图片类爬虫项目实现思路277
19.3图片类爬虫项目编写实战277
19.4调试与运行281
19.5小结282

第20章 模拟登录爬虫项目 283
20.1模拟登录爬虫项目功能分析283
20.2模拟登录爬虫项目实现思路283
20.3模拟登录爬虫项目编写实战284
20.4调试与运行292
20.5小结294

°蓝鲤歌蓝 发表于 2018-2-7 17:37:42

我手机里面有这本书,看了觉得很不。

°蓝鲤歌蓝 发表于 2018-2-7 17:38:26

°蓝鲤歌蓝 发表于 2018-2-7 17:37
我手机里面有这本书,看了觉得很不。

很不错。

七磅 发表于 2018-8-14 10:35:28

想问一下,如果刚学完小甲鱼的入门教程的再来学这本,会不会很难?{:10_257:}

东东枪 发表于 2018-8-21 13:55:11

°蓝鲤歌蓝 发表于 2018-2-7 17:38
很不错。

大喘气哈哈哈

wjlovezzd 发表于 2018-9-25 09:33:59

谢谢分享   这本书太好了      我正好需要


不知道这个适不适合刚刚入门的小白呢

appleangel 发表于 2018-10-10 08:49:54

留名

alunzuishuai 发表于 2018-10-31 20:02:29

请问这本书是讲python 3吗?

stefanie0511 发表于 2018-11-1 16:12:34

对呀对呀,学到什么程度可以开始看这本啊{:10_301:}

我爱小草hj 发表于 2018-11-5 15:23:38

就是奔着爬虫学的python
{:10_279:}

黄瓜哥哥 发表于 2018-11-10 17:44:18

已入手美滋滋

freedom100 发表于 2018-12-28 08:42:43

°蓝鲤歌蓝 发表于 2018-2-7 17:38
很不错。

我也想要这本书电子版,毕竟真书占地方。电子书好。

三木一对 发表于 2019-1-3 18:17:51

适合小白嘛

AI乌龟 发表于 2019-1-5 14:51:30

电子书有吗{:10_254:}

vincent_hienha 发表于 2019-2-5 19:37:13

thanks share.

154811490 发表于 2019-5-24 22:32:03

python的书最多,果然最火的

painx 发表于 2019-6-6 08:45:53

这书的豆瓣评分很低啊。。。。。。。。。
页: [1]
查看完整版本: 【进阶】《精通Python网络爬虫:核心技术、框架与项目实战》