scrapy爬虫框架的最常用命令包括(scrapy启动命令)

扫码添加渲大师小管家，免费领取渲染插件、素材、模型、教程合集大礼包！

大家好，今天来介绍scrapy爬虫框架的最常用命令包括的问题，以下是渲大师小编对此问题的归纳和整理，感兴趣的来一起看看吧！

scrapy的暂停与重启

在爬取大型站点的时候，或遇到某些特殊情况的时候，往往需要赞同爬虫，并稍后再接着之知键前执行到的位置继续爬取，而不是每次出问题都从头开始。
scrapy的暂停与重启的设置很简单：
1.创建工作目录

2.用以下命令启动爬段派虫

上述命令中：
somespider : 启动的爬虫名
crawls/somespider-1 :你创建的工握猛贺作目录+爬虫序号

后面的somespider-1是用来区分不同的爬虫的，因为官方文档提到了：

3.暂停爬虫

以上两步，爬虫便可以能暂停的状态运行，当你需要暂停的时候，只需在运行窗口发送暂停命令即可：
ctrl + c
tips：

4.暂停后的重启

输入与启动相同的命令即可：

然后爬虫就会接着上一次暂停后的位置继续运行。

完。

怎么样使用Python的Scrapy爬虫框架

有些人问，开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？这里按照我的经验随便扯淡一下：

上面说的爬虫，基本可以分3类：

1.分布式爬虫：Nutch

2.JAVA单机爬虫：Crawler4j、WebMagic、WebCollector

3. 非JAVA单机爬虫：scrapy

第一类:分布式爬虫

爬虫使用分布式，主要是解决两个问题：

1)海量URL管理

2)网速

现在比较流行的分布式爬虫，是Apache的Nutch。但是对于大多数用户来说，Nutch是这几类爬虫里，最不好的选择，理由如下：

1)Nutch是为搜索引擎设计的爬虫，大多数用户是需要一个做精准数据爬取（精抽取）的爬虫。Nutch运行的一套流程里，有三分之二是为了搜索引擎而设计的。对精抽取没有太大的意义。也就是说，用Nutch做数据抽取，会岁判浪费很多的时间在不必要的计算上。而且如果你试图通过对Nutch进行二次开发，来使得它适用于精抽取的业务，基本上就要破坏Nutch的框架，把Nutch改的面目全非，有修改Nutch的能力，真的不如自己重新写一个分布式爬虫框架了。

2)Nutch依赖hadoop运行，hadoop本身会消耗很多的时间。如果集群机器数量较少，爬取速度反而不如单机爬虫快。

3)Nutch虽然有一套插件机制，而且作为亮点宣传。可以看到一些开源的Nutch插件，提供精抽取的功能。但是开发过Nutch插件的人都知道，Nutch的插件系统有多蹩脚。利用反射的机制来加载和调用插件，使得程序的编写和调试都变得异常困难，更别说在上面开发一套复杂的精抽取系统了。而且Nutch并没有为精抽取提供相应的插件挂载点。Nutch的插件有只有五六个挂载点，而这五六个挂载点都是为了搜索引擎服务的，并没有为精抽取提供挂载点。大多数Nutch的精抽取插件，都是挂载在“页面解析”(parser)这个挂载点的，这个挂载点其实是为了解析链接（为后续爬取提供URL），以及为搜索引擎提供一些易乎锋改抽取的网页信息(网页的meta信息、text文本)。

4)用Nutch进行爬虫的二次开发，爬虫的编写和调试所需的时间，往往是单机爬虫所需的十倍时间不止。了解Nutch源码的学习成本很高，何况是要让一个团队的人都读懂Nutch源码。调试过程中会出现除程序本身之外的各种问题(hadoop的问题、hbase的问题)。

5)很多人说Nutch2有gora，可以持久化数据到avro文件、hbase、mysql等。很多人其实理解错了，这里说的持久化数据，是指将URL信息（URL管理所需要的数据）存放到avro、hbase、mysql。并不是你要抽取的结构化数据。其实对大多数人来说，URL信息存在哪里无所谓。

6)Nutch2的版本目前并不适合开发。官方现在稳定的Nutch版本是nutch2.2.1，但是这个版本绑定了gora-0.3。如果想用hbase配合nutch（大多数人用nutch2就是为了用hbase)，只能使用0.90版本左右的hbase，相应的就要将hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比较有误导作用，Nutch2的教程有基轿两个，分别是Nutch1.x和Nutch2.x，这个Nutch2.x官网上写的是可以支持到hbase 0.94。但是实际上，这个Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之后的一个版本，这个版本在官方的SVN中不断更新。而且非常不稳定（一直在修改）。

所以，如果你不是要做搜索引擎，尽量不要选择Nutch作为爬虫。有些团队就喜欢跟风，非要选择Nutch来开发精抽取的爬虫，其实是冲着Nutch的名气（Nutch作者是Doug Cutting），当然最后的结果往往是项目延期完成。

如果你是要做搜索引擎，Nutch1.x是一个非常好的选择。Nutch1.x和solr或者es配合，就可以构成一套非常强大的搜索引擎了。如果非要用Nutch2的话，建议等到Nutch2.3发布再看。目前的Nutch2是一个非常不稳定的版本。

python爬虫35scrapy实操入门一文带你入门保姆级教程

如果在 windows 系统下，提示这个错误 ModuleNotFoundError: No module named 'win32api' ，那么使用以下命令可以解决： pip install pypiwin32 。

示例如下：

命令：

示例如下：

创建完毕之后可以看下具体创建了什么文件；

我们使用 pycharm 打开看下；

scrapy 爬虫项目中每个文件的作用如下：

------ “运维家” ------

linux系统下，mknodlinux，linux目录写权限，大白菜能安装linux吗，linux系统创建文件的方法，领克linux系统怎么装软件，linux文本定位；

ocr识别linux，linux锚定词尾，linux系统使用记录，u盘有linux镜像文件，滑搜戚应届生不会Linux，linux内漏纳核64位，linux自启动管理服务；

linux计算文件夹信陵大小，linux设备名称有哪些，linux能用的虚拟机吗，linux系统进入不了命令行，如何创建kalilinux，linux跟so文件一样吗。

4python爬虫之新建 scrapy 爬虫项目(抓取和保存)

1.win10 下 win + r 打开伍高cmd 切换新项目的目录
2.新建scrapy项目的命令:

可以利用pycharm 打开项目文件夹编辑项目
3.items.py
声明爬取的字段

4.新建scrapy 爬虫

用命令 scrapy genspider doubanmovie "movie.douban.com" 创建爬虫。

5.运行爬虫

5.1 创建运行脚本
(一)、在 scrapy.cfg 同级目录下创建 pycharm 调试脚本 run.py，埋梁避免每次运行爬虫输入密码,内容如下：

6.修改robottxt协议
修改 settings 中的 ROBOTSTXT_OBEY = True 参数为 False,因为默认为 True，就是要遵守 robots.txt 的规则， robots.txt 是遵循 Robot协议的一个文件，它保存在网站的服务器中，它的作用是，告诉搜索引擎爬虫，本网站哪些目录下的网页不希望你进行爬取收录。在 Scrapy 启动后，会在第一时间访问网站的 robots.txt 文件，然后决定该网站的爬取范围。查看 robots.txt 可以直接网址后接 robots.txt 即可。

一般构建爬虫系统，建议自己编写Item Pipeline,就可以在open(path)选择自己的保存路径
参考: # scrapy爬虫事件以及数据保存为txt,json,mysql

7.1保存为json格式时出现乱码的解决方式:
scrapy抓取豆瓣书籍保存json文件乱码问题
中文默认是Unicode,如:

\u5317\u4eac\u5927\u5b66
在setting文件settings.py中设置：

就可以解决了
第二种解决办腔液尺法
或在cmd中传入 -s FEED_EXPORT_ENCODING='utf-8'

参考: https://www.cnblogs.com/tinghai8/p/9700300.html

Scrapy主要包括哪些组件_scrapy框架的组成部分分别是什么

Scrapy运行流程：

首先，引擎从调度器中取出一个链接(URL)用于接下来的抓取

引擎把URL封装成一个请求(Request)传给下载器，下载器辩隐把资源下载下来，并封装成应答包(Response)

然后，爬虫解析Response

若是解析出模岁实体（Item）,则交给实体管道进行进一步的处理。

若是解析出的是链接（URL）,则把URL交给Scheler等待抓取

具体组件如下：

引擎(Scrapy):用来处理整个系统的数据流处理，触发事务(框架核心)

调度器(Scheler):用来接受引擎发过来的请求，压入队列中，并在引擎再次请求的时候返回。可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列，由它来决定下一个要抓取的网址是什么，同时去除重复的网址

下载器(Downloader):用于下载网页内容，并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)

爬虫(Spiders):爬虫是主要干活的，用于从特定的网页中提取自己需要的信息，即所谓的实体(Item)。用户也可以从中提取出链接，让Scrapy继续抓取下一个页面

项目管道(Pipeline):负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

下载器中间件(DownloaderMiddlewares):位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。

爬虫中间件(SpiderMiddlewares):介于Scrapy引擎和爬虫之间的框架，主要工作旦灶睁是处理蜘蛛的响应输入和请求输出。

调度中间件(SchelerMiddewares):介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。

更多服务器知识文章推荐：

本文标题：scrapy爬虫框架的最常用命令包括(scrapy启动命令)
本文地址：https://gpu.xuandashi.com/71200.html，转载请说明来源于：渲大师
声明：本站部分内容来自网络，如无特殊说明或标注，均为本站原创发布。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。分享目的仅供大家学习与参考，不代表本站立场！

渲大师博客

scrapy爬虫框架的最常用命令包括(scrapy启动命令)

scrapy的暂停与重启

怎么样使用Python的Scrapy爬虫框架

python爬虫35scrapy实操入门一文带你入门保姆级教程

4python爬虫之新建 scrapy 爬虫项目(抓取和保存)

Scrapy主要包括哪些组件_scrapy框架的组成部分分别是什么

发表评论取消回复

热门文章

联系方式

随机推荐

scrapy的暂停与重启

怎么样使用Python的Scrapy爬虫框架

python爬虫35scrapy实操入门一文带你入门保姆级教程

4python爬虫之新建 scrapy 爬虫项目(抓取和保存)

Scrapy主要包括哪些组件_scrapy框架的组成部分分别是什么

相关推荐

使用免费动态拨号VPS安全吗

宝塔Windows面板怎么安装 宝塔Windows面板安装教程(Windows安装宝塔)

香港服务器租用中的BGP带宽有哪些优势(什么是bgp带宽)

香港服务器适合什么类型的网站(香港服务器适合什么类型的网站使用)

发表评论 取消回复

随机推荐

宝塔Windows面板怎么安装宝塔Windows面板安装教程(Windows安装宝塔)

发表评论取消回复