精通Python网络爬虫:核心技术、框架与项目实战
;
副标题:无;
作者: 韦玮;
内容简介:
前言
为什么写这本书
网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中。在搜索引擎中,主要使用通用网络爬虫对网页进行爬取及存储。
随着大数据时代的到来,我们经常需要在海量数据的互联网环境中搜集一些特定的数据并对其进行分析,我们可以使用网络爬虫对这些特定的数据进行爬取,并对一些无关的数据进行过滤,将目标数据筛选出来。对特定的数据进行爬取的爬虫,我们将其称为聚焦网络爬虫。在大数据时代,聚焦网络爬虫的应用需求越来越大。
目前在国内Python网络爬虫的书籍基本上都是从国外引进翻译的,国内的本版书籍屈指可数,故而我跟华章的副总编杨福川策划了这本书。本书的撰写过程中各方面的参考资料非常少,因此完成本书所花费的精力相对来说是非常大的。
本书从系统化的视角,为那些想学习Python网络爬虫或者正在研究Python网络爬虫的朋友们提供了一个全面的参考,让读者可以系统地学习Python网络爬虫的方方面面,在理解并掌握了本书的实例之后,能够独立编写出自己的Python网络爬虫项目,并且能够胜任Python网络爬虫工程师相关岗位的工作。
同时,本书的另一个目的是,希望可以给大数据或者数据挖掘方向的从业者一定的参考,以帮助这些读者从海量的互联网信息中爬取需要的数据。所谓巧妇难为无米之炊,有了这些数据之后,从事大数据或者数据挖掘方向工作的读者就可以进行后续的分析处理了。
本书的主要内容和特色
本书是一本系统介绍Python网络爬虫的书籍,全书注重实战,涵盖网络爬虫原理、如何手写Python网络爬虫、如何使用Scrapy框架编写网络爬虫项目等关于Python网络爬虫的方方面面。
本书的主要特色如下:
·系统讲解Python网络爬虫的编写方法,体系清晰。
·结合实战,让读者能够从零开始掌握网络爬虫的基本原理,学会编写Python网络爬虫以及Scrapy爬虫项目,从而编写.....
目录预览:
精通Python网络爬虫:核心技术、框架与项目实战
前言
第一篇 理论基础篇
第1章 什么是网络爬虫
1.1 初识网络爬虫
1.2 为什么要学网络爬虫
1.3 网络爬虫的组成
1.4 网络爬虫的类型
1.5 爬虫扩展——聚焦爬虫
1.6 小结
第2章 网络爬虫技能总览
2.1 网络爬虫技能总览图
2.2 搜索引擎核心
2.3 用户爬虫的那些事儿
2.4 小结
第二篇 核心技术篇
第3章 网络爬虫实现原理与实现技术
3.1 网络爬虫实现原理详解
3.2 爬行策略
3.3 网页更新策略
3.4 网页分析算法
3.5 身份识别
3.6 网络爬虫实现技术
3.7 实例——metaseeker
3.8 小结
第4章 Urllib库与URLError异常处理
4.1 什么是Urllib库
4.2 快速使用Urllib爬取网页
4.3 浏览器的模拟——Headers属性
4.4 超时设置
4.5 HTTP协议请求实战
4.6 代理服务器的设置
4.7 DebugLog实战
4.8 异常处理神器——URLError实战
4.9 小结
........