包虫病

首页 » 常识 » 问答 » 从原理到实战,一份详实的Scrapy
TUhjnbcbe - 2022/7/17 17:02:00

大家好,欢迎来到Crossin的编程教室!

之前分享了很多requests、selenium的Python爬虫文章,本文将从原理到实战带领大家入门另一个强大的框架Scrapy。如果对Scrapy感兴趣的话,不妨跟随本文动手做一遍!

一、Scrapy框架简介

Scrapy是:由Python语言开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据,只需要实现少量的代码,就能够快速的抓取。

二、运行原理

Scrapy框架的运行原理看下面一张图就够了(事实上原理是比较复杂的,也不是三言两语能够说清楚的,因此感兴趣的读者可以进一步阅读更多的相关文章来了解,本文不做过多讲解)

Scrapy主要包括了以下组件:

引擎(ScrapyEngine)Item项目调度器(Scheduler)下载器(Downloader)爬虫(Spiders)项目管道(Pipeline)下载器中间件(DownloaderMiddlewares)爬虫中间件(SpiderMiddlewares)调度中间件(SchedulerMiddewares)三.入门3.1安装

第一种:在命令行模式下使用pip命令即可安装:

$pipinstallscrapy

第二种:首先下载,然后再安装:

$pipdownloadscrapy-d./#通过指定国内镜像源下载$pipdownload-i

1
查看完整版本: 从原理到实战,一份详实的Scrapy