当前位置：首页 > news >正文

用nat123做自己的网站/淘宝推广怎么推

news 文章来源：https://blog.csdn.net/m0_56758840/article/details/135855717 2025/2/24 11:27:54

用nat123做自己的网站,淘宝推广怎么推,做企业网站一般多少钱,做网站读哪个专业前言: 本篇是要结合上篇一起看的姊妹篇:爬虫工作量由小到大的思维转变---＜第三十九章 Scrapy-redis 常用的那个RetryMiddleware＞-CSDN博客 IP代理池的管理对于确保爬虫的稳定性和数据抓取的匿名性至关重要。围绕Scrapy-Redis框架和一个具体的IP代理池中…

前言:

本篇是要结合上篇一起看的姊妹篇:爬虫工作量由小到大的思维转变---＜第三十九章 Scrapy-redis 常用的那个RetryMiddleware＞-CSDN博客

IP代理池的管理对于确保爬虫的稳定性和数据抓取的匿名性至关重要。围绕Scrapy-Redis框架和一个具体的IP代理池中间件代码，在分布式爬虫中如何使用Redis实现IP代理池的管理，这篇文章进行探讨一下 (当然,还有更好的方案,希望大家反驳我)

正文:

IP代理池与Scrapy-Redis的结合

源代码

import random
import time
import redisclass RedisProxyMiddleware(object):def __init__(self, redis_host, redis_port, redis_db, proxy_key, batch_size, max_failures, lock_key):# 初始化Redis连接self.redis = redis.StrictRedis(host=redis_host, port=redis_port, db=redis_db)# Redis 代理池keyself.proxy_key = proxy_key# 每次从Redis获取代理的数量self.batch_size = batch_size# 代理IP允许的最大失败次数self.max_failures = max_failures# 代理IP锁的keyself.lock_key = lock_key# 本地缓存代理IP的集合self.cached_proxies = set()@classmethoddef from_crawler(cls, crawler):settings = crawler.settings# 创建中间件实例并返回return cls(redis_host=settings.get('REDIS_HOST'),redis_port=settings.get('REDIS_PORT'),redis_db=settings.get('REDIS_DB'),proxy_key=settings.get('REDIS_PROXY_KEY'),batch_size=settings.get('BATCH_SIZE'),max_failures=settings.get('MAX_FAILURES'),lock_key=settings.get('REDIS_PROXY_LOCK_KEY'))def process_request(self, request, spider):# 如果请求中没有代理IP，或者请求中的代理IP已经被加入到了代理锁if 'proxy' not in request.meta or self.redis.sismember(self.lock_key, request.meta['proxy']):# 如果缓存的代理IP数量小于批量大小，则尝试获取新的代理IPif len(self.cached_proxies) < self.batch_size:self.fetch_proxies(spider)# 如果本地缓存中有代理IP，从中随机选择一个if self.cached_proxies:request.meta['proxy'] = random.choice(list(self.cached_proxies))def fetch_proxies(self, spider):# 尝试获取代理锁，如果获取锁成功，则进行代理IP的刷新if self.acquire_lock(spider):try:spider.logger.debug('代理锁已获取，准备提取新的代理IP。')fetched_proxies = self.redis.srandmember(self.proxy_key, self.batch_size)if fetched_proxies:# 清空本地代理IP缓存，并添加新获取的代理IPself.cached_proxies.clear()self.cached_proxies.update(fetched_proxies)spider.logger.debug('已提取{}个新的代理IP。'.format(len(fetched_proxies)))else:spider.logger.warning('无法获取到新的代理IP，继续使用现有的代理IP。')finally:# 无论提取代理IP成功与否，都释放代理锁self.release_lock(spider)spider.logger.debug('代理锁已释放。')else:# 如果没有获取到代理锁，则等待，等待时间应根据实际情况调整spider.logger.debug('代理锁正被其他实例占用，等待重试。')time.sleep(5)def acquire_lock(self, spider):# 尝试加锁，用于控制代理IP的获取status = self.redis.set(self.lock_key, 1, nx=True, ex=60)  # 锁的有效期设为60秒if status:spider.logger.debug('代理锁已加锁。')else:spider.logger.debug('代理锁加锁失败，锁已存在。')return statusdef release_lock(self, spider):# 释放锁，其他实例可以继绀获取新代理self.redis.delete(self.lock_key)spider.logger.debug('代理锁已释放。')

RedisProxyMiddleware代码解析：

可以细分为几个重要部分，每个部分都有特定的目的。我们将对这些部分进行详细解析：

初始化和属性赋值 __init__方法中实现了RedisProxyMiddleware的初始化方法。它接收来自Scrapy的参数，如Redis数据库的连接信息、代理关键字、批量大小、最大失败次数和锁定键。这些参数在实例化时保存为类的属性，以供后续使用。此外，还初始化了一个空集合用于缓存代理IP。
from_crawler方法 from_crawler方法是一个类方法，用于从Crawler对象获取参数，并实例化RedisProxyMiddleware类。通过获取Scrapy设置中的Redis连接信息和其他参数，我们可以方便地初始化中间件并与Redis建立连接。
process_request方法 process_request方法是RedisProxyMiddleware中的关键方法，用于处理Spider请求以获取代理IP。在该方法中，首先检查请求中是否存在代理IP（存储在请求的meta数据中），以及该代理IP是否在锁定键指定的Redis集合中。如果请求中没有代理IP或代理IP被锁定，将调用fetch_proxies方法来获取新的代理IP。
fetch_proxies方法 fetch_proxies方法用于从Redis数据库获取一组全新的代理。通过使用srandmember方法，它从Redis中的代理关键字指定的集合中获取指定数量的随机代理IP。如果成功获取到代理IP，则将其添加到cached_proxies集合中。然后，根据获取的代理IP数量，记录调试日志或警告信息，以供进一步的调试和分析。

总结：

RedisProxyMiddleware在Scrapy框架中实现了一个IP代理池的管理中间件。通过对代码进行解析，我们了解了它的初始化方法、参数设置、处理请求方法和获取全新代理IP的逻辑。RedisProxyMiddleware的设计目标是提供一个简单、可扩展和稳定的IP代理池解决方案，以满足分布式爬虫的需求。通过精确管理代理IP，并根据需要进行动态调整和切换，我们可以提高爬虫的稳定性和数据抓取效率。

爬虫工作量由小到大的思维转变---＜第四十章 Scrapy Redis 实现IP代理池管理的最佳实践＞

前言: 本篇是要结合上篇一起看的姊妹篇:爬虫工作量由小到大的思维转变---＜第三十九章 Scrapy-redis 常用的那个RetryMiddleware＞-CSDN博客 IP代理池的管理对于确保爬虫的稳定性和数据抓取的匿名性至关重要。围绕Scrapy-Redis框架和一个具体的IP代理池中…...

编程日记 2024/1/26 0:59:30

C# 实现 XOR 密码

XOR密码（异或密码）是一种简单的加密算法，它使用异或（XOR）操作来对明文和密钥进行加密和解密。异或操作是一种位运算，它对两个二进制数的对应位进行比较，如果两个位相同（都为0或都为…...

编程日记 2024/1/26 0:58:29

【Web前端开发基础】CSS3之空间转换和动画

CSS3之空间转换和动画目录 CSS3之空间转换和动画一、空间转换1.1 概述1.2 3D转换常用的属性1.3 3D转换：translate3d（位移）1.4 3D转换：perspective（视角）1.5 3D转换：rotate3d（旋转&a…...

编程日记 2024/1/26 0:47:15

Go实现一个简单的烟花秀效果（附带源码）

在 Go 语言中，要实现烟花秀效果可以使用 github.com/fogleman/gg 包进行绘图。以下是一个简单的例子： 首先，确保你已经安装了（有时候需要梯子才可以安装） github.com/fogleman/gg 包： go get -u github.c…...

编程日记 2024/1/26 0:46:14

【数学建模】插值与拟合

文章目录插值插值方法用Python解决插值问题拟合最小二乘拟合数据拟合的Python实现适用情况处理由试验、测量得到的大量数据或一些过于复杂而不便于计算的函数表达式时，构造一个简单函数作为要考察数据或复杂函数的近似定义给定一组数据，需要确定满…...

编程日记 2024/1/26 0:45:13

全卷积网络：革新图像分析

一、介绍全卷积网络（FCN）的出现标志着计算机视觉领域的一个重要里程碑，特别是在涉及图像分析的任务中。本文深入探讨了 FCN 的概念、它们的架构、它们与传统卷积神经网络 （CNN） 的区别以及它们在各个领域的应用。就像…...

编程日记 2024/1/26 0:42:11

ubuntu20.04 格式化硬盘扩展硬盘GParted

如何在 Ubuntu 22.04 LTS 上安装分区编辑器 GParted？_gparted安装-CSDN博客 sudo apt install gparted 步骤5：启动GParted 安装完成后，您可以在应用程序菜单中找到GParted。点击它以启动分区编辑器。通过以上步骤，您可以在Ubun…...

编程日记 2024/1/26 0:39:08

docker的资源限制（cgroup）

前瞻 Docker 通过 Cgroup 来控制容器使用的资源配额，包括 CPU、内存、磁盘三大方面， 基本覆盖了常见的资源配额和使用量控制。 Cgroup 是 ControlGroups 的缩写，是 Linux 内核提供的一种可以限制、记录、隔离进程组所使用的物理资源(如 CPU、…...

编程日记 2024/1/26 0:37:06

ChatGPT与文心一言：应用示例与体验比较

ChatGPT 和文心一言哪个更好用？ 为了更好地感受ChatGPT和文心一言这两款AI助手如何在实际运用中竞相辉映，我将提供一些典型的应用示例。这些示例都取自真实的用户体验，以帮助解释这两种工具如何让日常生活或工作变得更加轻松。 ChatGPT Ch…...

编程日记 2024/1/26 0:35:04

紫光展锐T760_芯片性能介绍_展锐T760安卓核心板定制

展锐T760核心板是一款基于国产5G芯片的智能模块，采用紫光展锐T760制程工艺为台积电6nm工艺，支持工艺具有出色的能效表现。其采用主流的44架构的八核设计，包括4颗2.2GHz A76核心和4颗A55核心设计，内存单元板载可达8GB Ram256GB ROM…...

编程日记 2024/1/26 0:30:59

从动力系统研究看当今数学界

6.3... Milnor’s definition of “attractors” which has been criticized above by us). The work of [KSS2] of asserting the existence of “nice open set” of Ω(p.148) would be likely not verified, for example we think the first sentence “… since f is nont…...

编程日记 2024/1/26 0:28:58

【征服redis15】分布式锁的功能与整体设计方案

目录 1. 分布式锁的概念 2.基于数据库做分布式锁 2.1 基于表主键唯一做分布式锁 2.2 基于表字段版本号做分布式锁 2.3 基于数据库排他锁做分布式锁 3.使用Redis做分布式锁 3.1 redis实现分布式锁的基本原理 3.2 问题一：增加超时机制，防止长期持有…...

编程日记 2024/1/26 0:21:52

MATLAB中实现机械臂逆运动学求解的方法之一是使用阻尼最小二乘法

MATLAB中实现机械臂逆运动学求解的方法之一是使用阻尼最小二乘法。阻尼最小二乘法通常用于处理数值求解问题中的不稳定性和噪声。以下是一个简单的MATLAB代码示例，演示了机械臂逆运动学的阻尼最小二乘法求解： % 机械臂参数 L1 1; % 机械臂长度 L2 1;…...

编程日记 2024/1/26 0:20:52

2024.1.24 GNSS 学习笔记

1.伪距观测值公式 2.载波相位观测值公式 3.单点定位技术(Single Point Positionin, SPP) 仅使用伪距观测值，不使用其他的辅助信息获得ECEF框架下绝对定位技术。使用广播星历的轨钟进行定位，考虑到轨钟的米级精度，所以对于<1米的误差&…...

编程日记 2024/1/26 0:19:51

2024-01-22（MongoDB）

1.Mongodb使用的业务场景： 传统的关系型数据库/mysql在“三高”需求以及应对web2.0的网站需求面前，有点力不从心，什么是“三高”需求： a. 对数据库高并发的读写需求 b. 对海量数据的高效率存储和访问需求 c. 对数据库的高可扩…...

编程日记 2024/1/26 0:13:45

无人机航迹规划（六）：七种元启发算法（DBO、LO、SWO、COA、LSO、KOA、GRO）求解无人机路径规划（提供MATLAB代码）

一、七种算法（DBO、LO、SWO、COA、LSO、KOA、GRO）简介 1、蜣螂优化算法DBO 蜣螂优化算法（Dung beetle optimizer，DBO）由Jiankai Xue和Bo Shen于2022年提出，该算法主要受蜣螂的滚球、跳舞、觅食、偷窃和繁…...

编程日记 2024/1/26 0:10:42

《WebKit 技术内幕》学习之十二（2）：安全机制

2　沙箱模型 2.1　原理一般而言，对于网络上的网页中的JavaScript代码和插件是不受信的（除非是经过认证的网站），特别是一些故意设计侵入浏览器运行的主机代码更是非常危险，通过一些手段或者浏览器中的漏洞&#xff0c…...

编程日记 2024/1/26 0:08:41

算法优化：LeetCode第122场双周赛解题策略与技巧

接下来会以刷常规题为主 ，周赛的难题想要独立做出来还是有一定难度的，需要消耗大量时间比赛地址 3011. 判断一个数组是否可以变为有序 public class Solution {public int minimumCost(int[] nums) {if (nums.length < 3) {// 数组长度小于3时&a…...

编程日记 2024/1/26 0:07:39

IDEA导出jar

1、选择导出方式 2、选择Main Class 3、构建jar...

编程日记 2024/1/26 0:05:37

Win10/11中VMware Workstation设置网络桥接模式

文章目录一、添加VMware Bridge Protocol服务二、配置桥接参数1.启用系统Device Install Service服务2.配置VMware 需要确认物理网卡是否有添加VMware Bridge Protocol服务添加VMware Bridge Protocol服务提示：以下是本篇文章正文内容，下面案例可供参…...

编程日记 2024/1/26 0:01:33

html Canvas粒子文字特效

代码有点长，下面是代码： <!DOCTYPE html> <html><head><meta charset"UTF-8"><title>HTML5 Canvas粒子效果文字动画特效DEMO演示</title><link rel"stylesheet" href"css/normalize.c…...

编程日记 2024/1/25 23:59:29

@JsonFormat失效，被jackson自定义配置覆盖

jackson配置类我的jackson配置类如下，其中serializerByType(LocalDateTime.class, new LocalDateTimeSerializer()) 覆盖了JsonFormat注解 Configuration public class JacksonConfiguration {public static final DateTimeFormatter optionalDateTimePattern (n…...

编程日记 2024/1/25 23:58:28

SaaS系统如何助力企业数字化转型

随着科技的快速发展，数字化转型已经成为企业适应市场变化、提高竞争力的必要手段。在这个过程中，SaaS（软件即服务）系统以其独特的优势，正在成为越来越多企业的首选。乔拓云SaaS系统作为这一领域的佼佼者，更…...

编程日记 2024/1/25 23:54:25

nginx配置内网代理，前端+后端分开配置

安装好后nginx，进入配置文件我这块安装在了home里面，各位根据自身情况选择打开nginx.conf文件在底部查看是否包含这段信息：含义是配置文件包含该路径下的配置文件 include /home/nginx/conf/conf.d/*.conf; # 该路径根据自己的安装位置自行修改配置文件进入conf.d文…...

编程日记 2024/1/25 23:51:22

i18n多国语言Internationalization的动态实现

一、数据动态的更新在上一篇i18n多国语言Internationalization的实现-CSDN博客，可能会遇到一个问题，我们在进行英文或中文切换时，并没有办法对当前的数据进行动态的更新。指的是什么意思呢？当前app.js当中一个组件内容&#xff…...

编程日记 2024/1/25 23:49:20

C++笔记（二）

函数的默认参数如果我们自己传入数据，就用自己的数据，如果没有，就用默认值语法： 返回值类型函数名（形参默认值）{} int func（int a，int b20，int c30）{} …...

编程日记 2024/1/25 23:48:19

【技能---构建github中SSH密钥的流程】

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言SSH基于账号口令的安全验证通过SSH连接到服务器打开终端（命令行界面）使用 SSH 命令连接： 在 Ubuntu 中生成 SSH 密钥并将其添…...

编程日记 2024/1/25 23:43:15

linux-centos服务器离线安装yapi(包含nodejs、mongodb、yapi、pm2离线安装)

yapi是使用vue框架开发的，借助nodejs 前端直接访问的mongodb数据库，离线安装yapi步骤如下下载离线安装包下载地址 https://download.csdn.net/download/qq445829096/88778418 离线安装包先复制到 dev/yapi目录(根据自己习惯自定义目录) node-v12.13.0-linux-x64.tar.xz …...

编程日记 2024/1/25 23:41:13

手撕重采样，考虑C的实现方式

一、参考文章： 重采样、上采样、下采样 - 知乎 (zhihu.com) 先直接给结论，正常重采样过程如下： 1、对于原采样率fs，需要重采样到fs1，一般fs和fs1都是整数哈，则先找fs和fs1的最小公倍数，设为m…...

编程日记 2024/1/25 23:35:08

网络安全产品之认识入侵防御系统

由于网络安全威胁的不断演变和增长。随着网络技术的不断发展和普及，网络攻击的种类和数量也在不断增加，给企业和个人带来了巨大的安全风险。传统的防火墙、入侵检测防护体系等安全产品在面对这些威胁时，存在一定的局限性和不足，无…...

编程日记 2024/1/25 23:33:06

前言:

正文:

IP代理池与Scrapy-Redis的结合

源代码

RedisProxyMiddleware代码解析：

总结：

相关文章：