当前位置：首页 > news >正文

使用Selenium与Scrapy处理动态加载网页内容的解决方法

news 2026/2/7 15:09:53

博客正文（包含详细注释）

引言

在爬虫技术领域，处理动态加载的网页内容常常是一项挑战，尤其是对于那些通过用户滚动或其他交互动态加载更多内容的网站。本文将介绍如何结合使用Selenium和Scrapy来有效处理这类网页。

初探Selenium与Scrapy的结合

首先，我们探索如何使用Selenium在Scrapy中间件中处理动态加载内容的网页。关键在于模拟用户滚动行为，以加载并捕获所有内容。

def process_response(self, request, response, spider):driver = spider.driver# 检查请求的URL是否在我们的目标列表中if request.url in spider.page_url:driver.get(request.url)  # 使用Selenium打开页面# 等待页面初步加载完成time.sleep(3)  # 示例等待时间，可能需要根据实际页面调整# 获取当前页面的高度last_height = driver.execute_script("return document.body.scrollHeight")while True:# 滚动到页面底部driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")# 等待页面可能出现的新内容加载time.sleep(3)  # 重新获取新的页面高度new_height = driver.execute_script("return document.body.scrollHeight")# 如果高度不再改变，说明到达了页面底部if new_height == last_height:breaklast_height = new_height  # 更新高度，用于下次比较# 获取完整的页面源代码text = driver.page_source# 创建新的HtmlResponse并返回return HtmlResponse(url=request.url, body=text, encoding='utf-8', request=request)# 如果URL不在目标列表中，返回原始响应return response

完整的Scrapy爬虫实例

下面是一个使用Selenium和Scrapy爬取网易新闻的示例。

import scrapy
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.options import Optionsclass WySpider(scrapy.Spider):name = "wy"  # 爬虫名称start_urls = ["https://news.163.com/domestic/"]  # 起始URL# Selenium配置opt = Options()opt.add_argument('--headless')  # 添加headless参数，指定浏览器在无界面模式下运行，即没有用户界面或可视化界面的情况下。opt.add_argument('--disable-gpu')  # 禁用GPU加速opt.add_argument('--window-size=4000,1600')  # 设置浏览器窗口大小opt.add_experimental_option('excludeSwitches', ['enable-automation'])  # 防止网站识别出自动化测试driver = Chrome(options=opt)  # 创建Chrome驱动href_index = [1, 2]  # 指定要处理的链接索引page_url = []  # 存储目标URL地址# 处理起始URL的响应def parse(self, resp, **kwargs):# 提取链接href_list = resp.xpath('/html/body/div/div[3]/div[2]/div[2]/div/ul/li/a/@href').extract()for i in range(len(href_list)):if i in self.href_index:# 如果链接在指定索引中，添加到目标列表并发起请求self.page_url.append(href_list[i])yield scrapy.Request(url=href_list[i], callback=self.parse_detail)# 处理获取的新闻类别链接def parse_detail(self, resp, **kwargs):# 提取详细页面的链接detail_url = resp.xpath('/html/body/div/div[3]/div[3]/div[1]/div[1]/div/ul/li/div/div/div/div[1]/h3/a/@href').extract()for url in detail_url:# 对每个详细新闻链接发起请求yield scrapy.Request(url=url, callback=self.parse_detail_content)# 提取并处理新闻详细内容def parse_detail_content(self, resp, **kwargs):# 提取新闻标题title = resp.xpath('//*[@id="contain"]/div[2]/h1/text()').extract_first()# 提取新闻内容con = resp.xpath('//*[@id="content"]/div[2]//text()').extract()con = ''.join(con).strip()data = {'title': title, 'con': con}  # 封装提取的数据print(data)  # 打印数据yield data  # 返回提取的数据

使用场景

这种结合Selenium和Scrapy的方法适用于需要处理动态加载内容的网页，如新闻网站、社交媒体平台等。

结语

通过结合Selenium和Scrapy，我们可以有效地处理那些动态加载内容的网页，这对于数据抓取和网络爬虫项目至关重要。希望这篇文章能够帮助您在面对类似的挑战时，有所启发和帮助。

使用Selenium与Scrapy处理动态加载网页内容的解决方法

博客正文（包含详细注释） 引言在爬虫技术领域，处理动态加载的网页内容常常是一项挑战，尤其是对于那些通过用户滚动或其他交互动态加载更多内容的网站。本文将介绍如何结合使用Selenium和Scrapy来有效处理这类网页。初探Seleni…...

编程日记 2023/12/17 3:56:52

Linux的权限（二）

目录前言文件类型和访问权限（事物属性） 补充知识文件类型文件操作权限修改文件权限 chmod指令文件权限值的表示方法字符表示方法 8进制数值表示方法权限有无带来的影响修改文件角色 chown与chgrp指令目录的rwx权限补充知识 …...

编程日记 2023/12/17 3:55:51

网络服务IP属地发生变化的原因有哪些？

近期，许多用户发现自己的网络服务IP属地发生了变化。原本固定的IP地址不再是静态的，而是发生了变动。这一现象引起了广大用户的关注和疑惑，对网络服务的使用和信息安全产生了影响。为了解决用户的疑虑，我们对此现象进行了深入探究…...

编程日记 2023/12/17 3:54:50

OpenGL 着色器程序的保存和加载（二进制）

背景为了提高OpenGL 着色器程序的编译和链接速度，我们可以将程序保存为二进制进行加载，可以大幅度提升加载效率。方法以下是加载和保存二进制程序的方法。 // 加载着色器程序的二进制文件到已创建的着色器程序中 bool loadPragram(const std::str…...

编程日记 2023/12/17 3:52:49

【Unity 实用工具篇】| 游戏多语言解决方案，官方插件Localization 实现本地化及多种语言切换

前言【Unity 实用工具篇】| 游戏多语言解决方案，官方插件Localization 实现本地化及多种语言切换一、多语言本地化插件 Localization1.1 介绍1.2 效果展示1.3 使用说明二、插件导入并配置2.1 安装 Localization2.2 全局配置三、多语言映射表3.1 创建多语言文本配…...

编程日记 2023/12/17 3:51:47

疯狂SQL转换系列- SQL for Tencent Cloud VectorDB

为了尽量保证使用者通过统一的SQL标准访问各类型数据库，我们这里开启了“疯狂SQL转换系列”。转换的语法效果不一定是最好的，更多是为用户提供一个统一的数据库交互体验。转换数据库目标的确认更多是内生的。基于我们对业务发展的需要。该向量库SQL转换的…...

编程日记 2023/12/17 3:45:43

Excel中的INDIRECT函数用法

当在 Excel 中使用 INDIRECT 函数时，它可以帮助我们通过引用字符串中的单元格地址来获取对应单元格的值。这个函数非常有用，特别是在需要动态地引用其他单元格的情况下。下面是 INDIRECT 函数的一些用法和示例： 基本用法： INDIREC…...

编程日记 2023/12/17 3:44:42

Spring-temp

IOC/DI实现步骤 1.配置元数据 2.实例化IOC 3.获取Bean 基于XML配置方式管理组件 1.基于构造函数：有参、无参 2.基于静态工厂方法：有参、无参依赖注入 1.构造函数 2.setter方法 Bean组件高级特性 1.作用域 2.生命周期 FactoryBean 基于注解 IOC Bean作…...

编程日记 2023/12/17 3:42:40

【C++干货铺】会搜索的二叉树（BSTree)

个人主页点击直达：小白不是程序媛 C系列专栏：C干货铺代码仓库：Gitee 目录前言： 二叉搜索树二叉搜索树概念二叉搜索树操作二叉搜索树的查找二叉搜索树的插入二叉搜索树元素的删除二叉搜索树的实现 BSTree结点 …...

编程日记 2023/12/17 3:41:39

【Spring AOP】动态代理

一.AOP常见的实现方式 1.Spring AOP 2.aspectJ 注意:spring使用的是aspectJ的注解,但实现是spring自身实现的. 二.AOP原理 Spirng AOP原理 , 基于动态代理实现的. 三.代理模式作用就是提供一个代理类,让我们在调用目标方法的时候,不再是直接对目标方法进行调用,而是通过代理类…...

编程日记 2023/12/17 3:40:38

NAT——网络地址转换

目录一、概念二、NAT的分类 1.静态NAT 1.1 静态NAT的配置 1.2 利用eNSP小实验加强对静态NAT的理解 2、动态NAT 三、NAPT——端口映射四、Easy IP 使用一个公网地址可以让所有人都上公网一、概念随着Internet的发展和网络应用的增多，IPv4地址枯竭已经成为…...

编程日记 2023/12/17 3:36:35

Lambda 表达式的常见用法

文章目录 Lambda 表达式的常见用法使用Lambda表达式集合遍历使用Lambda表达式排序使用Lambda表达式过滤使用Lambda表达式映射使用Lambda表达式归约使用Lambda表达式分组使用Lambda表达式函数式接口的实现使用Lambda表达式线程的创建使用Lambda表达式进行Optional 操作使用Lambd…...

编程日记 2023/12/17 3:33:33

成本管理常用的ChatGPT通用提示词模板

成本分析：如何进行成本分析？ 成本核算：如何进行成本核算？ 成本控制：如何控制成本？ 成本效益分析：如何进行成本效益分析？ 成本预测：如何预测成本？ 成本决…...

编程日记 2023/12/17 3:31:31

如何在PHP中处理日期和时间？

在 PHP 中，你可以使用内置的 DateTime 类和相关函数来处理日期和时间。以下是一些常见的日期和时间操作的示例： 使用 DateTime 类： 获取当前日期和时间： $currentDateTime new DateTime(); echo $currentDateTime->format(Y-…...

编程日记 2023/12/17 3:29:29

NO-IOT翻频，什么是翻频，电信为什么翻频

1.1 翻频迁移最终的目的就是减少网络的相互干扰，提供使用质量. 1.2 随着与日俱增的网络规模的扩大，网内干扰已成了影响网络的质量标准之一，为了保障电信上网体验，满足用户日益增长的网速需求,更好的服务客户，电信针对…...

编程日记 2023/12/17 3:27:27

云原生之深入解析OOM和CPU节流

一、前言使用 Kubernetes 时，内存不足 (OOM) 错误和 CPU 节流是云应用程序中资源处理的主要难题，这是为什么呢？云应用程序中的 CPU 和内存要求变得越来越重要，因为它们与云成本直接相关。通过 limits 和 requests ，可…...

编程日记 2023/12/17 3:26:26

数据结构与算法之递归: LeetCode 93. 复原 IP 地址 (Typescript版)

复原 IP 地址 https://leetcode.cn/problems/restore-ip-addresses/ 描述有效 IP 地址正好由四个整数（每个整数位于 0 到 255 之间组成，且不能含有前导 0），整数之间用 ‘.’ 分隔。例如：“0.1.2.201” 和 “192.…...

编程日记 2023/12/17 3:23:23

json模块与jsonpath详解

数据提取之JSON与JsonPATH JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。 JSON和XML的比较可谓不…...

编程日记 2023/12/17 3:19:20

ubuntu20.04在noetic下编译orbslam2 参考链接1：https://blog.csdn.net/qq_58869016/article/details/128660588 参考链接2：https://blog.csdn.net/dong123456789e/article/details/129693837 在noetic下的安装环境 1.库安装 sudo apt-get update sudo …...

编程日记 2023/12/17 3:16:18

64. 最小路径和

最小路径和描述 : 给定一个包含非负整数的 m x n 网格 grid ，请找出一条从左上角到右下角的路径，使得路径上的数字总和为最小。说明：每次只能向下或者向右移动一步。题目 : LeetCode 64.最小路径和 64. 最小路径和解析 : class So…...

编程日记 2023/12/17 3:15:16

Vim 调用外部命令学习笔记

Vim 外部命令集成完全指南文章目录 Vim 外部命令集成完全指南核心概念理解命令语法解析语法对比常用外部命令详解文本排序与去重文本筛选与搜索高级 grep 搜索技巧文本替换与编辑字符处理高级文本处理编程语言处理其他实用命令范围操作示例指定行范围处理复合命令示例实用技…...

编程新知 2025/11/16 8:24:16

Zustand 状态管理库：极简而强大的解决方案

Zustand 是一个轻量级、快速和可扩展的状态管理库，特别适合 React 应用。它以简洁的 API 和高效的性能解决了 Redux 等状态管理方案中的繁琐问题。核心优势对比基本使用指南 1. 创建 Store // store.js import create from zustandconst useStore create((set)…...

编程新知 2026/1/26 19:01:00

Nginx server_name 配置说明

Nginx 是一个高性能的反向代理和负载均衡服务器，其核心配置之一是 server 块中的 server_name 指令。server_name 决定了 Nginx 如何根据客户端请求的 Host 头匹配对应的虚拟主机（Virtual Host）。 1. 简介 Nginx 使用 server_name 指令来确定…...

编程新知 2025/9/6 16:47:17