当前位置：首页 > news >正文

scrapy-redis分布式爬虫（分布式爬虫简述+分布式爬虫实战）

news 2026/2/8 22:04:31

一、分布式爬虫简述

（一）分布式爬虫优势

1.充分利用多台机器的带宽速度

2.充分利用多台机器的ip地址

（二）Redis数据库

1.Redis是一个高性能的nosql数据库

2.Redis的所有操作都是原子性的

3.Redis的数据类型都是基于基本数据结构，无需额外的抽象

4.Redis五种数据类型：string、hash、list、set、zset(sorted set）

（三）python操作redis数据库

1.终端：pip install redis

2.代码如下

import redis 
db = redis.Redis(host="localhost", port="6379", decode_responses=True)# 如果用到相同的key值，可以自动修改
db.set("name", "Sam")
db.set("name2", "张三")print(db.get("name2"))# 多个值
db.mset({"k1":"v1","k2":"v2"})
print(db.mget("k1","k2","name2"))# hash
db.hset("hash1","hkey1","hvalue1")
db.hset("hash1","hkey2","hvalue2")
db.hset("hash1","hkey3","hvalue3")print(db.hget("hash1","hkey2"))
print(db.hgetall("hash1"))db.lpush("list1",11,22,33)
print(db.llen("list1"))
print(db.lrange("list1",0,-1))db.sadd("set1", 55, 44 ,77)
print(db.scard("set1"))
print(db.smembers("set1"))db.zadd("zset1",{"item1":1,"item2":2,"item3":2})
print(db.zcard("zset1"))
print(db.zrange("zset1",0,-1))
print(db.zrange("zset1",0,-1,withscores=True))

（四）Redis数据保存至mongodb数据库

import redis
import pymongo
import jsondb_redis = redis.Redis(host="localhost", port="6379", decode_responses=True)client_mongo = pymongo.MongoClient("mongodb://localhost:27017")
db_mongo = client_mongo["RedisToMongo"]
col_mongo = db_mongo["C1"]for i in db_redis.lrange("app:items", 0 -1):page = {"title":json.loads(i)["title"]}res = col_mongo.insert_one(page)print(res.inserted_id)

二、分布式爬虫实战

实现一个简单的分布式：

1.创建爬虫项目和文件同scrapy一样的步骤

2.修改settings.py文件中的user-agent、robotstxt_obey、log_level、打开注释掉的item_piplines

3.终端安装scrapy-redis:pip install scrapy-redis

4.在app.py文件中修改如下代码：

import scrapy
from ..items import C07L07Item
from scrapy_redis.spiders import RedisSpiderclass AppSpider(RedisSpider):name = "app"redis_key = "app"# start_urls = ["http://127.0.0.1:5000/C07L07"]def __init__(self, *args, **kwargs):domain = kwargs.pop("domain","")self.allowed_domains = filter(None, domain.split(","))super(AppSpider, self).__init__(*args, **kwargs)def parse(self, response):links = response.xpath('//a/@href').getall()for link in links:link = "http://127.0.0.1:5000"+linkyield scrapy.Request(url=link,callback=self.parse_details, dont_filter=True)def parse_details(self, response):item = C07L07Item()item["title"] = response.textyield item

在items.py文件中修改数据结构

import scrapyclass C07L07Item(scrapy.Item):title = scrapy.Field()

在pipelines.py文件中修改代码

from itemdapter import ItemAdapterclass C07L07Pipeline:def process_item(self, item, spider):print(item["title"])return item

5.在settings.py文件中添加如下代码，修改ITEM_PIPELINES

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = TrueREDIS_URL = "redis://127.0.0.1:6379"
DOWNLOAD_DELAY = 1ITEM_PIPELINES = {"C07LO7.pipelines.C07LO7Pipeline":300,"scrapy_redis.pipelines.RedisPipeline":400
}

6.在终端链接redis数据库：redis-cli

lpush app http://127.0.0.1:5000/C07L07

7.运行爬虫代码：scrapy crawl app(可以开多进程）

scrapy-redis分布式爬虫（分布式爬虫简述+分布式爬虫实战）

一、分布式爬虫简述 （一）分布式爬虫优势 1.充分利用多台机器的带宽速度 2.充分利用多台机器的ip地址 （二）Redis数据库 1.Redis是一个高性能的nosql数据库 2.Redis的所有操作都是原子性的 3.Redis的数据类型都是基于基本数据…...

编程日记 2023/10/29 22:34:37

单目深度估计之图像重构原理解析

一、参考资料浅析自监督深度估计中的光度损失(Photometric Loss) 二、图像重构原理设输入位姿估计网络的3帧连续单目序列为 < I t − 1 , I t , I t 1 > <I_{t-1},I_{t},I_{t1}> <It−1,It,It1>，其中 t t t 为时间索引，…...

编程日记 2023/10/29 22:33:36

【爬虫】charles手机抓包环境设置（设置系统证书）

1.说明想要对手机抓包，最关键的是需要设置好根证书，用户证书在安卓7.0之后就不受信任了，想要对手机app抓包，就需要把用户证书设置为系统证书（根证书） 注意，想要设置为根证书，你的…...

编程日记 2023/10/29 22:32:35

【flink sql table api】时间属性的指定与使用注意事项

文章目录一. 时间属性介绍二. Table api指定时间属性三. 处理时间的指定1. 在创建表的 DDL 中定义2. 在 DataStream 到 Table 转换时定义3. 使用 TableSource 定义四. 事件时间的指定1. 在 DDL 中定义2. 在 DataStream 到 Table 转换时定义3. 使用 TableSource 定义五. 小结…...

编程日记 2023/10/29 22:30:33

评价模型：CRITIC客观赋权法

目录 1.算法原理介绍2.算法步骤2.1 数据标准化2.2 计算信息承载量2.3 计算权重和得分 3.案例分析 1.算法原理介绍 CRITIC方法是一种客观权重赋权法，其基本思路是确定指标的客观权数以两个基本概念为基础。一是对比强度，它表示同一指标各个评价方案取值差…...

编程日记 2023/10/29 22:29:32

两个Tomcat插件配置不同端口，session冲突，同时登录被挤下线问题的解决

如果是配置了两个Tomcat的插件，在同一ip有两个需要同时登录的项目，可以在其中一个web项目的web.xml文件里添加session命名的配置，如下： <se…...

编程日记 2023/10/29 22:28:31

Mybatis中执行Sql的执行过程

MyBatis中执行SQL的过程可以分为以下几个步骤： 解析配置文件：在运行时，MyBatis会加载并解析配置文件（通常为mybatis-config.xml），获取数据库连接信息、映射文件等。创建SqlSessionFactory：MyB…...

编程日记 2023/10/29 22:27:30

IEEE Standard for SystemVerilog—Chapter 25.7 Tasks and functions in interfaces

子例程（任务和函数）可以在接口中定义，也可以在连接的一个或多个模块中定义。这允许更抽象的建模级别。例如，“读”和“写”可以定义为任务，而不需要引用任何连线，主模块只能调用这些任务。在modport中&…...

编程日记 2023/10/29 22:25:27

一台服务器最大能支持多少条 TCP 连接

文章目录 1. 一台服务器最大能打开的文件数1.1 限制参数1.2 调整服务器能打开的最大文件数示例 2. 一台服务器最大能支持多少连接3. 一台客户端机器最多能发起多少条连接4. 其他5. 相关实际问题5.1 "too many open files" 报错是怎么回事，该如何解决5.2 一…...

编程日记 2023/10/29 22:24:27

Qt重定向QDebug，Qt/C++开源作品39-日志输出增强版V2022

Qt重定向QDebug，自定义一个简易的日志管理类 Chapter1 Qt重定向QDebug，自定义一个简易的日志管理类0.前言1.最简单的操作运行结果2.实现一个简易的日志管理类 Chapter2 Qt::Qt Log日志模块Qt Log日志模块官方解释官方Demo思路 Chapter3 QT日志模块的个性…...

编程日记 2023/10/29 22:23:26

linux入门---多线程的控制

目录标题线程库pthread_create如何一次性创建多个线程线程的终止线程的等待线程取消分离线程如何看待其他语言支持的多线程线程id的本质线程的局部存储线程的封装线程库要想控制线程就得使用原生线程库也可以将其称为pthread库，这个库是遵守posix标准的&#xf…...

编程日记 2023/10/29 22:22:24

基于android的 rk3399 同时支持多个USB摄像头

基于android的 rk3399 同时支持多个USB摄像头一、前文二、CameraHal_Module.h三、CameraHal_Module.cpp四、编译&烧录Image五、App验证一、前文 Android系统默认支持2个摄像头，一个前置摄像头，一个后置摄像头需要支持数量更多的摄像头&#xff0…...

编程日记 2023/10/29 22:21:23

【Qt之控件QTreeView】设置单元格高度、设置图标尺寸

设置列宽设置高度自定义代理继承QItemDelegate，实现sizeHint ()方法，设置自定义委托。 class itemDelegate : public QItemDelegate {Q_OBJECTpublic:explicit itemDelegate(QObject *parent 0) : QItemDelegate(parent){}~itemDelegate(){}virtua…...

编程日记 2023/10/29 22:20:22

力扣42.接雨水（java，暴力法、前缀和解法）

Problem: 42. 接雨水文章目录思路解题方法复杂度Code 思路要能接住雨水，感性的认知就是要形成一个“下凹区域”，则此时我们就要比较当前柱子和其左右柱子高度的关系，易得一个关键的式子：当前小区域的积水 min（当前…...

编程日记 2023/10/29 22:18:18

hdlbits系列verilog解答（移位寄存器）-23

文章目录一、问题描述二、verilog源码三、仿真结果一、问题描述您将获得一个具有两个输入和一个输出的模块 my_dff （实现 D 触发器）。实例化其中的三个，然后将它们链接在一起以形成长度为 3 的移位寄存器。端口 clk 需要连接到所有实例。…...

编程日记 2023/10/29 22:17:16

Linux命令记载

服务器基本操作 SSH登录服务器 ssh -p 端口号用户名服务器IP 输入密码SFTP上传文件 #输入密码 #使用get命令下载远程服务器的文件，比如/usr/test.txt sftp>get /usr/test.txt#使用put命令上传本地文件到服务器，比如/usr/test1.txt sftp> put /…...

编程日记 2023/10/29 22:15:14

Flume 快速入门【概述、安装、拦截器】

文章目录什么是 Flume？Flume 组成Flume 安装Flume 配置任务文件应用示例启动 Flume 采集任务 Flume 拦截器编写 Flume 拦截器拦截器应用什么是 Flume？ Flume 是一个开源的数据采集工具，最初由 Apache 软件基金会开发和维护。它的主要目的是…...

编程日记 2023/10/29 22:14:13

【pandas技巧】group by+agg+transform函数

目录 1. group by单个字段单个聚合 2. group by单个字段多个聚合 3. group by多个字段单个聚合 4. group by多个字段多个聚合 5. transform函数 studentsgradesexscoremoney0小狗小学部female958441小猫小学部male938362小鸭初中部male838543小兔小学部female909314小花小…...

编程日记 2023/10/29 22:13:12

一文解读WordPress网站的各类缓存-老白博客

缓存是一种重要的WordPress优化手段，用于提高网站的性能和加载速度。减少计算量，有效提升响应速度，让有限的资源服务更多的用户。本文老白博客便从自己的使用简单给大家介绍下WordPress的缓存，包括站点缓存（Page Cach…...

编程日记 2023/10/29 22:12:11

从零开始：开发直播商城APP的技术指南

时下，直播商城APP已经成了线上购物、电子商务的核心组成，本文将为您提供一个全面的技术指南，帮助您从零开始开发一个直播商城APP。我们将涵盖所有关键方面，包括技术堆栈、功能模块、用户体验和安全性。第一部分：技术…...

编程日记 2023/10/29 22:11:10

网络编程（Modbus进阶）

思维导图 Modbus RTU（先学一点理论） 概念 Modbus RTU 是工业自动化领域最广泛应用的串行通信协议，由 Modicon 公司（现施耐德电气）于 1979 年推出。它以高效率、强健性、易实现的特点成为工业控制系统的通信标准。包…...

编程新知 2026/2/7 23:18:34

XML Group端口详解

在XML数据映射过程中，经常需要对数据进行分组聚合操作。例如，当处理包含多个物料明细的XML文件时，可能需要将相同物料号的明细归为一组，或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码，增加了开…...

编程新知 2026/2/8 4:37:34

OpenLayers 可视化之热力图

注：当前使用的是 ol 5.3.0 版本，天地图使用的key请到天地图官网申请，并替换为自己的key 热力图（Heatmap）又叫热点图，是一种通过特殊高亮显示事物密度分布、变化趋势的数据可视化技术。采用颜色的深浅来显示…...

编程新知 2025/12/9 21:15:58

label-studio的使用教程(导入本地路径)

文章目录 1. 准备环境2. 脚本启动2.1 Windows2.2 Linux 3. 安装label-studio机器学习后端3.1 pip安装(推荐)3.2 GitHub仓库安装 4. 后端配置4.1 yolo环境4.2 引入后端模型4.3 修改脚本4.4 启动后端 5. 标注工程5.1 创建工程5.2 配置图片路径5.3 配置工程类型标签5.4 配置模型5.…...

编程新知 2026/2/7 20:40:53

Appium+python自动化（十六）- ADB命令

简介 Android 调试桥(adb)是多种用途的工具，该工具可以帮助你你管理设备或模拟器的状态。 adb ( Android Debug Bridge)是一个通用命令行工具，其允许您与模拟器实例或连接的 Android 设备进行通信。它可为各种设备操作提供便利，如安装和调试…...

编程新知 2026/1/21 18:20:51

关于nvm与node.js

1 安装nvm 安装过程中手动修改 nvm的安装路径， 以及修改通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解，但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后，通常在该文件中会出现以下配置&…...

编程新知 2026/1/28 15:17:32

工程地质软件市场：发展现状、趋势与策略建议

一、引言在工程建设领域，准确把握地质条件是确保项目顺利推进和安全运营的关键。工程地质软件作为处理、分析、模拟和展示工程地质数据的重要工具，正发挥着日益重要的作用。它凭借强大的数据处理能力、三维建模功能、空间分析工具和可视化展示手段&…...

编程新知 2025/10/6 6:10:29

Robots.txt 文件

什么是robots.txt？ robots.txt 是一个位于网站根目录下的文本文件（如：https://example.com/robots.txt），它用于指导网络爬虫（如搜索引擎的蜘蛛程序）如何抓取该网站的内容。这个文件遵循 Robots…...

编程新知 2025/9/9 5:38:23

C++中string流知识详解和示例

一、概览与类体系 C 提供三种基于内存字符串的流，定义在 <sstream> 中： std::istringstream：输入流，从已有字符串中读取并解析。std::ostringstream：输出流，向内部缓冲区写入内容，最终取…...

编程新知 2025/11/30 11:30:47

leetcodeSQL解题：3564. 季节性销售分析

leetcodeSQL解题：3564. 季节性销售分析题目： 表：sales ---------------------- | Column Name | Type | ---------------------- | sale_id | int | | product_id | int | | sale_date | date | | quantity | int | | price | decimal | -…...

编程新知 2025/10/5 19:58:27