精通Python爬虫框架Scrapy

admin 2022年11月13日 151次浏览

精通Python爬虫框架Scrapy

(副标题):无 ;

(作者): [美]迪米特里奥斯 考奇斯-劳卡斯(Dimitrios Kouzis-Loukas) ;

内容简介:

​ 第1章 Scrapy简介
欢迎来到你的Scrapy之旅。通过本书,我们旨在将你从一个只有很少经验甚至没有经验的Scrapy初学者,打造成拥有信心使用这个强大的框架从网络或者其他源爬取大数据集的Scrapy专家。本章将介绍Scrapy,并且告诉你一些可以用它实现的很棒的事情。
1.1 初识Scrapy
Scrapy是一个健壮的网络框架,它可以从各种数据源中抓取数据。作为一个普通的网络用户,你会发现自己经常需要从网站上获取数据,使用类似Excel的电子表格程序进行浏览(参见第3章),以便离线访问数据或者执行计算。而作为一个开发者,你需要经常整合多个数据源的数据,但又十分清楚获得和抽取数据的复杂性。无论难易,Scrapy都可以帮助你完成数据抽取的行动。
以健壮而又有效的方式抽取大量数据,Scrapy已经拥有了多年经验。使用Scrapy,你只需一个简单的设置,就能完成其他爬虫框架中需要很多类、插件和配置项才能完成的工作。快速浏览第7章,你就能体会到通过简单的几行配置,Scrapy可以实现多少功能。
从开发者的角度来说,你也会十分欣赏Scrapy的基于事件的架构(我们将在第8章和第9章中对其进行深入探讨)。它允许我们将数据清洗、格式化、装饰以及将这些数据存储到数据库中等操作级联起来,只要我们操作得当,性能降低就会很小。在本书中,你将学会怎样可以达到这一目的。从技术上讲,由于Scrapy是基于事件的,这就能够让我们在拥有上千个打开的连接时,可以通过平稳的操作拆分吞吐量的延迟。来看这样一个极端的例子,假设你需要从一个拥有汇总页的网站中抽取房源,其中每个汇总页包含100个房源。Scrapy可以非常轻松地在该网站中并行执行16个请求,假设完成一个请求平均需要花费1秒钟的时间,你可以每秒爬取16个页面。如果将其与每页的房源数相乘,可以得出每秒将产生1600个房源。想象一下,如果每个房

目录预览:

​ 精通Python爬虫框架Scrapy
第1章 Scrapy简介
第2章 理解HTML和XPath
第3章 爬虫基础
第4章 从Scrapy到移动应用
第5章 迅速的爬虫技巧
第6章 部署到Scrapinghub
第7章 配置与管理
第8章 Scrapy编程
第9章 管道秘诀
第10章 理解Scrapy性能
第11章 使用Scrapyd与实时分析进行分布式爬取
附录A 必备软件的安装与故障排除
欢迎来到异步社区!


[EPUB下载]