diff --git "a/Day66-75/Scrapy\347\210\254\350\231\253\346\241\206\346\236\266\345\210\206\345\270\203\345\274\217\345\256\236\347\216\260.md" "b/Day66-75/Scrapy\347\210\254\350\231\253\346\241\206\346\236\266\345\210\206\345\270\203\345\274\217\345\256\236\347\216\260.md" index 95af7963ee0bc698ff84c20c7c8c8aaac62b0cc2..9fe53d1c90694d8dcb0eef0a1fc563c16b53e1f2 100644 --- "a/Day66-75/Scrapy\347\210\254\350\231\253\346\241\206\346\236\266\345\210\206\345\270\203\345\274\217\345\256\236\347\216\260.md" +++ "b/Day66-75/Scrapy\347\210\254\350\231\253\346\241\206\346\236\266\345\210\206\345\270\203\345\274\217\345\256\236\347\216\260.md" @@ -6,11 +6,25 @@ ### Scrapy分布式实现 - - -### 布隆过滤器 - - +1. 安装Scrapy-Redis。 +2. 配置Redis服务器。 +3. 修改配置文件。 + - SCHEDULER = 'scrapy_redis.scheduler.Scheduler' + - DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter' + - REDIS_HOST = '1.2.3.4' + - REDIS_PORT = 6379 + - REDIS_PASSWORD = '1qaz2wsx' + - SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue' + - SCHEDULER_PERSIST = True(通过持久化支持接续爬取) + - SCHEDULER_FLUSH_ON_START = True(每次启动时重新爬取) ### Scrapyd分布式部署 +1. 安装Scrapyd +2. 修改配置文件 + - mkdir /etc/scrapyd + - vim /etc/scrapyd/scrapyd.conf +3. 安装Scrapyd-Client + - 将项目打包成Egg文件。 + - 将打包的Egg文件通过addversion.json接口部署到Scrapyd上。 +