Python网络爬虫权威指南

副标题：无

作者: [美] 瑞安 • 米切尔

内容简介：

前言
对那些没有学过编程的人来说，计算机编程看着就像变魔术。如果编程是魔术（magic），那么网页抓取
（Web scraping）就是巫术（wizardry），也就是运用“魔术”来实现精彩实用却又不费吹灰之力的“壮举”。
在我的软件工程师职业生涯中，我几乎没有发现像网页抓取这样的编程实践，可以同时吸引程序员和门外汉的注意。虽然写一个简单的网络爬虫并不难，就是先收集数据，再显示到命令行或者存储到数据库里，但是无论你之前已经做过多少次了，这件事永远会让你感到兴奋，同时又有新的可能。
不过遗憾的是，当和别的程序员提起网页抓取时，我听到了很多关于这件事的误解与困惑。有些人不确定它是不是合法的（其实合法），有些人不明白怎么处理包含大量 JavaScript 的页面以及如何处理登录问题。很多人困惑于如何开始一个大的网页抓取项目，甚至是到哪里寻找他们需要的数据。本书致力于解决人们关于网页抓取的诸多常见问题，廓清一些误解，并对常见的网页抓取任务提供全面的指导。
网页抓取是一个复杂多变的领域，我会通过介绍高级概念以及详细的示例来尽可能地覆盖你可能会在数据抓取项目中遇到的情形。本书提供了代码示例来演示书中的概念，你可以尝试运行它们来实践。这些代码示例是开源的，无论注明出处与否都可以免费使用(但若注明，作者会感激不尽）。所有的代码示例都在 GitHub 网站上（https://github.com/REMitchell/python-scraping
），可以查看和下载。
什么是网页抓取
在互联网上进行自动数据抓取这件事和互联网存在的时间差不多一样长。虽然网页抓取
并不是新术语，但是多年以来，这件事更常见的称谓是网页抓屏
（screen scraping）、数据挖掘
（data mining）、网页收割
（Web harvesting）或其他类似的版本。今天大众好像更倾向于用“网页.....

目录预览：

Python网络爬虫权威指南（第2版）
版权声明
O'Reilly Media, Inc. 介绍
前言
第一部分　创建爬虫
第 1 章　初见网络爬虫
第 2 章　复杂 HTML 解析
第 3 章　编写网络爬虫
收集在网站上发现的所有外链列表 allExtLinks = set()
第 4 章　网络爬虫模型
第 5 章　Scrapy
第 6 章　存储数据
第二部分　高级网页抓取
第 7 章　读取文档
第 8 章　数据清洗
第 9 章　自然语言处理
第 10 章　穿越网页表单与登录窗口进行抓取
第 11 章　抓取 JavaScript
第 12 章　利用 API 抓取数据
第 13 章　图像识别与文字处理
........

[EPUB下载]

上一篇： 24个比利下一篇： O'Reilly精品图书系列共21册