Python爬虫开发与项目实战

(副标题)：无 ;

(作者): 范传辉 ;

内容简介：

3.1　网络爬虫概述
本节正式进入Python爬虫开发的专题，接下来从网络爬虫的概念、用处与价值和结构等三个方面，让大家对网络爬虫有一个基本的了解。
3.1.1　网络爬虫及其应用
随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战，网络爬虫应运而生。网络爬虫（又被称为网页蜘蛛、网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。下面通过图3-1展示一下网络爬虫在互联网中起到的作用：
网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
搜索引擎（Search Engine），例如传统的通用搜索引擎baidu、Yahoo和Google等，是一种大型复杂的网络爬虫，属于通用性网络爬虫的范畴。但是通用性搜索引擎存在着一定的局限性：
1）不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。

图3-1　网络爬虫
2）通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。
3）万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频、视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。
4）通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。
为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。
聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择地访问万维网上的网页与相关的链接，获取所需要的信息。与通用爬虫不同，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题

目录预览：

Python爬虫开发与项目实战
第1章回顾Python编程
1.1 安装Python
1.2 搭建开发环境
1.3 IO编程
1.4 进程和线程
1.5 网络编程
1.6 小结
第2章 Web前端基础
2.1 W3C标准
2.2 HTTP标准
2.3 小结
第3章初识网络爬虫
3.1 网络爬虫概述
3.2 HTTP请求的Python实现
3.3 小结
第4章 HTML解析大法
4.1 初识Firebug
4.2 正则表达式
4.3 强大的BeautifulSoup
........

[EPUB下载]