网络爬虫是一种很好的自动收集数据的通用方法。本文将介绍爬行动物的种类。

聚焦网络爬虫是一种爬虫程序。满足特定主题的需求,而通用网络爬虫是搜索引擎爬行系统的重要组成部分(百度、谷歌、雅虎等。).其主要目的是将互联网上的网页下载到本地,形成互联网内容的镜像备份。

增量爬取就是爬取某个站点的数据。当网站的新数据或站点的数据发生变化时,它会自动抓取其新的或变化的数据。

网页按存在方式可分为表层网页和深层网页(也称隐形网页或隐藏网页)。

表层页面是指可以被传统搜索引擎索引的页面,即以超链接可以到达的静态页面为主的网页。

深度网页是那些大部分内容可以通过静态链接获得,隐藏在搜索表单后面,只有用户提交一些关键词才能获得。

蜘蛛中间件:爬虫引擎和爬虫之间的一个框架,主要用于处理爬虫的响应输入和请求输出。

调度器中间件:Scrapy引擎和调度器之间的框架,主要用于处理从Scrapy引擎发送到调度器的请求和响应。

调度器:用于接收引擎发送的请求,将其推入队列,并在引擎再次请求时返回。它就像一个URL的优先级队列,决定下一个要抓取的URL是什么,同时在这里删除重复的URL。

下载器中间件:Scrapy引擎和下载器之间的框架,主要用于处理Scrapy引擎和下载器之间的请求和响应。可以在这里设置IP和用户代理。

下载器:用于下载网页内容并返回给爬虫。

ScrapyEngine:用于控制整个系统的数据处理流程,触发事务处理。

爬虫:爬虫主要是为了工作,用来从特定的网页中提取你需要的信息,也就是所谓的项目(也叫实体)。也可以从中提取网址,让Scrapy继续爬下一页。

项目管道:负责处理爬虫从网页中抓取的项目。它的主要功能是持久化项目,验证项目的有效性,并删除不必要的信息。当页面被爬虫解析后,会被发送到项目管道,其数据会通过几个特定的序列进行处理。

XPath是一种用来在XML文件中选择节点的语言,也可以用在HTML中。CSS是一种风格化HTML文档的语言。选择器由它定义,并与特定HTML元素的样式相关联。