小编今天就通过这篇文章来给大家详细讲解一下关于爬虫的scrapy框架,感兴趣的小伙伴可以耐心阅读一下这篇文章。

强大的爬虫框架Scrapy是什么?三分钟看完这篇文章你就知道了

相信大家能够了解到scrapy爬虫框架那么一定不会是爬虫的初学者了,那么小编就不多介绍什么是爬虫了,我们直接来了解scrapy框架吧。

(一)什么是Scrapy框架

Scrapy是一很牛逼的爬虫框架,它的功能非常强大,它是基于Python来编写的。Scrapy可以给用户带来非常便捷的web抓取,并且也可以根据自己的需求进行定制。 

(二)Scrapy组件

Scrapy主要包括了以下组件:

引擎(Scrapy)、调度器(Scheduler)、下载器(Downloader)、爬虫(Spiders)、项目管道(Pipeline)、下载器中间件(Downloader Middlewares)、爬虫中间件(Spider Middlewares)、调度中间件(Scheduler Middewares);

(三)Scrapy运行流程

第一步,首先引擎需要从调度器中取出一个链接(URL)用于接下来的抓取;

第二步,引擎再把URL封装成一个请求(Request)传给下载器;

第三步,接着下载器把所需要的资源下载下来,并且封装成应答包(Response);

第四步,然后我们的爬虫开始解析Response;

第五步,等待爬虫解析出实体(Item),则交给实体管道进行进一步的处理;

最后一步,解析出的如果是是链接(URL),那么就会把URL交给调度器等待抓取。

这样就算一个完整的Scrapy的运行流程了。

以上就是小编给大家带来的在爬虫中scrapy框架的相关知识了,希望大家通过阅读小编的文章之后能够有所收获!如果大家觉得小编的文章不错的话,可以多多分享给有需要的人。

更多python相关文章请访问分类:python

【版权声明】本文图文出自大盘站@dapan.cc,转载请注明出处!