当前位置：首页 > news >正文

python爬虫基于管道持久化存储操作

news 2026/3/21 14:32:33

文章目录

基于管道持久化存储操作
scrapy的使用步骤
- 1.先转到想创建工程的目录下：cd ...
- 2.创建一个工程
- 3.创建之后要转到工程目录下
- 4.在spiders子目录中创建一个爬虫文件
- 5.执行工程
- setting文件中的参数
基于管道持久化存储的步骤：
持久化存储1：保存到本地txt文档。
- - 1. 数据解析
  - 2. 在item类中定义相关的属性
  - 3. 将解析的数据封装存储到item类型的对象
  - 4. 将item类型的对象提交给管道进行持久化存储的操作
  - 5. 在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作
  - 6. 在配置文件中开启管道
  - 运行结果：
持久化存储2：保存到数据库中。
- - 前言
  - - 安装mysql
    - 安装navicat
    - 使用终端操作数据库
    - 如何使用navicat新建数据库&新建表
  - 1234步与持久化存储1完全相同。
  - 5. 在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作
  - 6. 在配置文件中开启管道
  - 运行结果
  - 后记：

基于管道持久化存储操作

这个也是在基于scrapy框架的基础上实现的，所以scrapy的基本使用命令也是需要遵从的

scrapy的使用步骤

1.先转到想创建工程的目录下：cd …

2.创建一个工程

scrapy startproject 工程名  （XXPro：XXproject）

3.创建之后要转到工程目录下

cd 工程名

4.在spiders子目录中创建一个爬虫文件

这里不需要切换目录，在项目目录下即可。
www.xxx.com是要爬取的网站。

scrapy genspider 爬虫文件名 www.xxx.com

5.执行工程

在pycharm中直接执行是不管用的，无效。应该再在终端中执行

scrapy crawl 爬虫文件名				# 执行的是爬虫文件

setting文件中的参数

项目下有一个settings文件，里面的文件介绍如下：

# Obey robots.txt rules
ROBOTSTXT_OBEY = False#显示指定类型的日志信息 而不显示其他乱七八糟的
LOG_LEVEL = 'ERROR'# 设置用户代理 浏览器类型
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"# 取消注释改行，意味着开启管道存储。
# 300表示优先级，数值越小优先级越高	
ITEM_PIPELINES = {"weiboPro.pipelines.WeiboproPipeline": 300,
}

基于管道持久化存储的步骤：

1. 数据解析
2. 在item类中定义相关的属性
3. 将解析的数据封装存储到item类型的对象
4. 将item类型的对象提交给管道进行持久化存储的操作
5. 在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作
6. 在配置文件中开启管道

持久化存储1：保存到本地txt文档。

这个并不是很难。主要是理清他的思路是什么。
在工程目录下的爬虫文件(这里是weibo.py)写好保证能够爬取到信息之后，主要是将管道文件写好(pipelines.py)。
按照上面的6步走：

1. 数据解析

即爬取数据的过程

# （weibo.py爬虫文件）
# 不使用数据库，只保存到本地import scrapy
from weiboPro.items import WeiboproItem
# 导包失败：右键项目目录 => 将目标标记为 => 源代码根目录# 爬取微博失败了，返回为空。改为爬取B站了。
# 爬取B站的视频的名称和作者
class WeiboSpider(scrapy.Spider):name = "weibo"# allowed_domains = ["weibo.com"]start_urls = ["https://www.bilibili.com/"]def parse(self, response):author = []title = []div_list = response.xpath('//*[@id="i_cecream"]/div[2]/main/div[2]/div/div[1]/div')print("数据长度为", len(div_list))for div in div_list:# xpath返回的是列表，但是列表元素一定是Selector类型的对象# extract可以将Selector对象中data参数存储的字符串提取出来author = div.xpath('.//div[@class="bili-video-card__info--right"]//a/span[@class="bili-video-card__info--author"]/text()').extract()    # xpath要从上一层的xpath开始找，必须在最前面加个. !!# 对列表调用extract后，将列表的每一个Selector对象中的data对应的字符串提取了出来title=div.xpath('.//div[@class="bili-video-card__info--right"]/h3/a/text()').extract()# author, title解析到的为list，将其转为str# 将列表转为字符串： .join方法author = ''.join(author)title = ''.join(title)print('当前抽取的author', author)print('当前抽取的title', title)print(len(author), len(title))# 3，4两步都在循环内，所以是每执行一次循环将item对象提交给管道并存储到本地# 3.将解析的数据封装存储到item类型的对象item = WeiboproItem()item['author'] = authoritem['title'] = title# 4. 将item类型的对象提交给管道进行持久化存储的操作yield item

2. 在item类中定义相关的属性

找到项目目录下的items.py文件，在里面定义相关的属性
在这里插入图片描述

class WeiboproItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()# 在item类中定义相关的属性author = scrapy.Field()title = scrapy.Field()

3. 将解析的数据封装存储到item类型的对象

4. 将item类型的对象提交给管道进行持久化存储的操作

3，4两步在1.中已经体现，具体代码为：

            # 3.将解析的数据封装存储到item类型的对象item = WeiboproItem()item['author'] = authoritem['title'] = title# 4. 将item类型的对象提交给管道进行持久化存储的操作yield item

5. 在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作

在这里重写了父类的两个方法：open_spider()和close_spider()方法。
open_spider()方法在开始爬虫时被调用一次，close_spider()方法在爬虫结束时被调用一次。这样实现了yield多次时，只打开关闭一次文件。
process_item()是将得到的item对象中的数据保存到本地。

# pipelines.py 管道文件
class WeiboproPipeline:fp = Nonedef open_spider(self, spider):# 重写父类的方法，只在开始爬虫时被调用一次print("开始爬虫")self.fp = open('./B站.txt', 'w', encoding='utf-8')def process_item(self, item, spider):author = item['author']title = item['title']print("当前写入的是：" + author + ":" + title + "\n")self.fp.write(author + ":" + title + "\n")return itemdef close_spider(self, spider):# 重写父类的方法，在爬虫结束时被调用一次print("结束爬虫")self.fp.close()

6. 在配置文件中开启管道

打开项目weiboPro路径下的settings.py文件，将ITEM_PIPELINES字典取消注释，即可开启管道。

ITEM_PIPELINES = {"weiboPro.pipelines.WeiboproPipeline": 300,
}

运行结果：

运行结束之后，会在本地生成B站.txt文件，其中包含爬取的author和title
在这里插入图片描述

持久化存储2：保存到数据库中。

前言

安装navicat

这里需要安装mysql，我还另外安装了navicat。安装好mysql之后，要新建连接，按照步骤操作即可。

使用终端操作数据库

这里需要mysql库。这个库是用来对数据库进行远程连接的，所以必须要有打开的数据库，打开的表才可以。

1234步与持久化存储1完全相同。

5. 在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作

这里的管道文件中的每一个管道类（如持久化存储1的WeiboproPipeline）对应将一组数据存储到一个平台或者载体中。上面的是保存到本地，所以我们还需要将再写一个类来将数据持久化存储到数据库中。

我也有好多东西不理解为什么要这么写

# 管道文件中一个管道类对应将一组数据存储到一个平台或者载体中
class mysqlPileLine:# 每写一个管道类要将这个类写到settings.py的ITEM_PIPELINES中。connect = Nonecursor = Nonedef open_spider(self, spider):# 重写父类的方法，在爬虫开始时调用一次# 创建连接：pymysql.Connectself.connect = pymysql.Connect(host='127.0.0.1', port=3306, user='root', password='liu1457154996', db='bzhan', charset='utf8')	# db表示数据库的名称，我上面创建的数据库名称叫bzhan，即上图中的绿色圆柱def process_item(self, item, spider):# 创建游标self.cursor = self.connect.cursor()try:self.cursor.execute('INSERT INTO bzhan (author, title) VALUES ("%s", "%s")' % (item['author'], item['title']))	# 这里的bzhan是bzhan数据库下的表的名称self.connect.commit()print("成功写入数据库", item['author'], item['title'])except Exception as e:print(e)self.connect.rollback()return itemdef close_item(self, spider):self.cursor.close()     # 关闭游标self.connect.close()    # 关闭连接

6. 在配置文件中开启管道

在上面的基础上开启mysqlPileLine管道。

ITEM_PIPELINES = {"weiboPro.pipelines.WeiboproPipeline": 300,"weiboPro.pipelines.mysqlPileLine": 301,
}

运行结果

在终端中输入scrapy crwal weibo后，得到数据库中的结果如下：
在这里插入图片描述

后记：

面试题：将爬取到的数据一份存储到本地一份存储到数据库，如何实现？
- 管道文件中一个管道类对应的是将数据存储到一种平台
- 爬虫文件提交的item只会给管道文件中第一个被执行的管道类接受
- process_item中的return item表示将item传递给下一个即将被执行的管道类

python爬虫基于管道持久化存储操作

文章目录基于管道持久化存储操作scrapy的使用步骤1.先转到想创建工程的目录下：cd ...2.创建一个工程3.创建之后要转到工程目录下4.在spiders子目录中创建一个爬虫文件5.执行工程setting文件中的参数基于管道持久化存储的步骤：持久化存储1：保…...

编程日记 2023/10/1 15:58:12

【MySQL】数据类型（二）

文章目录一. char字符串类型二. varchar字符串类型2.1 char和varchar比较三. 日期和时间类型四. enum和set类型4.1 set的查询结束语一. char字符串类型 char (L) 固定长度字符串 L是可以存储的长度，单位是字符，最大长度是255 MySQL中的字符&#xff…...

编程日记 2023/10/1 15:55:09

基于Matlab实现连续模型求解方法

本文介绍了如何使用Matlab实现连续模型求解方法。首先，我们介绍了连续模型的概念，并明确了使用ODE和PDE求解器来求解常微分方程和偏微分方程的步骤。然后，我们通过一个简单的例子演示了如何将问题转化为数学模型，并使用Matlab编写…...

编程日记 2023/10/1 15:52:05

Tomcat 与 JDK 对应版本关系

对应关系 Tomcat版本 jdk版本11.0.x JDK 21及以后10.1.x JDK11及以后10.0.xJDK1.8及以后9.0.x JDK1.8及以后8.5.xJDK1.7及以后8.0.x JDK1.7及以后查看对应关系方法： 登陆Tomcat官网：Apache Tomcat - Welcome! 结果：...

编程日记 2023/10/1 15:49:03

iOS自动化测试方案(二)：Xcode开发者工具构建WDA应用到iphone

文章目录一、环境准备1.1、软件环境1.2、硬件环境1.3、查看版本二、安装WDA过程2.7、构建失败，这类错误有很多，比如在选择开发者账号后，就会提示:Failed to register bundle identifier表示应用唯一注册失败2.9、第二个错误，完全…...

编程日记 2023/10/1 15:47:02

IDEA的Maven换源

前言 IDEA是个好东西，但是使用maven项目时可能会让人很难受，要么是非常慢，要么直接下载不了。所以我们需要给IDEA自带maven换源，保证我们的下载速度。具体操作打开IDEA安装路径，然后打开下面的文件夹 plugins\m…...

编程日记 2023/10/1 15:46:00

步进电机只响不转

我出现问题的原因是相位线接错。我使用的滑台上示17H的步进电机，之前用的是57的步进电机。 57步进电机的相位线是A黑、A-绿、B红、B-蓝。 17步进电机的相位线是A红、A-绿、B黑、B-蓝。这两天被一个问题困扰了好久，在调试步进电机开发板的时候电机发生…...

编程日记 2023/10/1 15:42:58

使用select实现服务器并发

select函数介绍： select 函数是一个用于在一组文件描述符上进行异步I/O多路复用的系统调用。它可以同时监视多个文件描述符，等待其中任何一个文件描述符准备就绪，然后进行相应的操作。以下是select函数的原型： #include <…...

编程日记 2023/10/1 15:40:56

【Python】基于OpenCV人脸追踪、手势识别控制的求实之路FPS游戏操作

【Python】基于OpenCV人脸追踪、手势识别控制的求实之路FPS游戏操作文章目录手势识别人脸追踪键盘控制整体代码附录：列表的赋值类型和py打包列表赋值BUG复现代码改进优化总结 py打包视频： 基于OpenCV人脸追踪、手势识别控制的求实之路FPS游戏操作手…...

编程日记 2023/10/1 15:38:54

力扣 -- 718. 最长重复子数组

解题步骤： 参考代码： class Solution { public:int findLength(vector<int>& nums1, vector<int>& nums2) {int m nums1.size();int n nums2.size();//多开一行，多开一列vector<vector<int>> dp(m 1, ve…...

编程日记 2023/10/1 15:36:52

MP、MybatisPlus、联表查询、自定义sql、Constants.WRAPPER、ew （二）

描述： 给定一个id列表，更新对应列表中动物的年龄，使得年龄都较少一岁。要求：使用条件构造器构造条件。 mapper： void updateAnimalAge(Param(Constants.WRAPPER) Wrapper<Animal> wrapper, Param("age&qu…...

编程日记 2023/10/1 15:35:51

Ubuntu服务器安全性提升：修改SSH默认端口号

在Ubuntu服务器上，SSH（Secure Shell）是一种至关重要的远程连接工具。它提供了一种安全的方式来远程连接和管理计算机系统，通过加密通信来确保数据的保密性和完整性。SSH协议广泛用于计算机网络中，用于远程管理、文件传…...

编程日记 2023/10/1 15:34:50

十七，IBL-打印各个Mipmap级别的hdr环境贴图

预滤波环境贴图类似于辐照度图，是预先计算的环境卷积贴图，但这次考虑了粗糙度。因为随着粗糙度的增加，参与环境贴图卷积的采样向量会更分散，导致反射更模糊，所以对于卷积的每个粗糙度级别，我们将按顺序把模…...

编程日记 2023/10/1 15:33:48

7、Docker网络

docker网络模式能干嘛？ 容器间的互联和通信以及端口映射容器IP变动时候可以通过服务名直接网络通信而不受到影响 docker 网络模式采用的是桥接模式，当我们创建了一个容器后docker网络就会帮我们创建一个虚拟网卡，这个虚拟网卡和我们的容器网…...

编程日记 2023/10/1 15:30:46

MySQL学习笔记23

逻辑备份： 1、回顾什么是逻辑备份？ 逻辑备份就是把数据库、数据表或者数据进行导出，导出到一个文本文件中。 2、逻辑备份工具： mysqldump：提供全库级、数据库级别以及表级别的数据备份。 mysqldumpbinlog&#xff…...

编程日记 2023/10/1 15:26:43

Java基础---第十篇

系列文章目录文章目录系列文章目录一、说说Java 中 IO 流二、 Java IO与 NIO的区别（补充）三、java反射的作用于原理一、说说Java 中 IO 流 Java 中 IO 流分为几种? 按照流的流向分，可以分为输入流和输出流；按照操作单元划分，可以划分为字节流和字符流；按照流的角色…...

编程日记 2023/10/1 15:23:40

NLP 03(LSTM)

一、LSTM LSTM (Long Short-Term Memory) 也称长短时记忆结构,它是传统RNN的变体,与经典RNN相比： 能够有效捕捉长序列之间的语义关联缓解梯度消失或爆炸现象 LSTM的结构更复杂,它的核心结构可以分为四个部分去解析: 遗忘门、输入门、细胞状态、输出门 LSTM内部结构…...

编程日记 2023/10/1 15:20:37

Python集成开发环境（IDE）：WingPro for Mac

WingPro for Mac是一款Python集成开发环境（IDE）软件，它提供了一系列强大的工具和功能，帮助Python开发人员提高开发效率和质量。 WingPro for Mac拥有直观的用户界面和强大的调试器，可以帮助用户快速定位问题和修复错误…...

编程日记 2023/10/1 15:19:36

[Machine learning][Part3] numpy 矢量矩阵操作的基础知识

很久不接触数学了，machine learning需要用到一些数学知识，这里在重温一下相关的数学基础知识矢量矢量是有序的数字数组。在表示法中，矢量用小写粗体字母表示。矢量的元素都是相同的类型。例如，矢量不包含字符和数字。数组中元…...

编程日记 2023/10/1 15:18:35

【中秋国庆不断更】HarmonyOS对通知类消息的管理与发布通知（上）

一、通知概述通知简介应用可以通过通知接口发送通知消息，终端用户可以通过通知栏查看通知内容，也可以点击通知来打开应用。通知常见的使用场景： 显示接收到的短消息、即时消息等。显示应用的推送消息，如广告、版本更新等。显示…...

编程日记 2023/10/1 15:16:34

Qwen-Image RTX4090D镜像高算力适配：支持FP16+FlashAttention-2加速Qwen-VL推理

Qwen-Image RTX4090D镜像高算力适配：支持FP16FlashAttention-2加速Qwen-VL推理 1. 镜像概述与核心优势 Qwen-Image定制镜像是专为RTX 4090D高算力环境打造的大模型推理解决方案。基于官方Qwen-Image基础镜像深度优化，预装了完整的CUDA 12.4生态与Qwen-…...

编程新知 2026/3/21 13:51:53

用3D Gaussian Splatting自制3D模型：从视频到点云的完整流程（Colmap+FFmpeg）

用3D Gaussian Splatting打造个性化3D模型：从视频采集到交互式渲染的全链路实践当你想为游戏场景添加一个自定义角色，或是为电商平台创建商品三维展示时，专业3D扫描设备的高昂成本往往令人却步。现在，借助3D Gaussian Splatting&…...

编程新知 2026/3/21 13:23:35

【高精度气象】2026别再只问“天气准不准”：真正拉开收益差距的，是把预报接进交易、调度和运维

很多新能源企业到了 2026 年，仍然习惯把问题问成一句话：明天的天气到底准不准？这个问题当然重要，但已经不够了。因为今天的行业竞争，早就不是“谁把风速、辐照度报得更像天气软件”，而是谁能把气象预报真正…...

编程新知 2026/3/21 13:01:27

终极指南：Google Closure Compiler 开源商业模式与价值创造

终极指南：Google Closure Compiler 开源商业模式与价值创造【免费下载链接】closure-compiler A JavaScript checker and optimizer. 项目地址: https://gitcode.com/gh_mirrors/clos/closure-compiler Google Closure Compiler 作为一款强大的 JavaScript …...

编程新知 2026/3/21 10:50:43

AI 辅助开发实战：高效完成 php+mysql毕设选题的工程化路径

最近在帮学弟学妹看毕业设计，发现很多基于 PHP 和 MySQL 的项目，虽然功能实现了，但代码结构混乱、安全问题频出，开发过程也异常低效。这让我回想起自己当年做毕设时，大部分时间都花在了重复编写基础的增删改查&#xf…...

编程新知 2026/3/21 10:04:33

重新定义Android选择交互体验：WheelPicker物理级轮盘组件技术解析

重新定义Android选择交互体验：WheelPicker物理级轮盘组件技术解析【免费下载链接】WheelPicker Simple and fantastic wheel view in realistic effect for android. 项目地址: https://gitcode.com/gh_mirrors/wh/WheelPicker 在移动应用开发中&#xff0c…...

编程新知 2026/3/21 9:50:23

OpenClaw 切换底层模型：DeepSeek接入OpenClaw 2026.3.12终极解决方案（零报错版）

相信很多小伙伴升级OpenClaw 2026.3.12版本后，接入DeepSeek时都被各种报错搞疯了——Unknown model: deepseek/deepseek-chat、Unrecognized key: apiKey、anthropic/deepseek-chat，明明配置改了无数遍，网关却始终连不上。今天就给大家带来全…...

编程新知 2026/3/21 9:00:00

Nginx 配置前端后端服务

在配置Nginx以支持前端和后端服务时，需要了解Nginx的基本配置语法和结构，并依次设置Nginx作为前端静态资源服务器和反向代理服务器以连接后端应用。以下是详细的配置步骤： 一、Nginx基本配置语法和结构 Nginx的配置文件通常位于/etc/nginx/ng…...

编程新知 2026/3/21 8:55:59

InternLM2-Chat-1.8B代码生成效果实测：对比Python与Java实现

InternLM2-Chat-1.8B代码生成效果实测：对比Python与Java实现最近在社区里看到不少关于InternLM2-Chat-1.8B的讨论，特别是它在代码生成方面的表现。作为一个经常需要写代码的人，我对这类工具特别感兴趣。正好手头有个小项目，需要…...

编程新知 2026/3/21 7:49:36

CogVideoX-2b一文详解：CSDN专用版核心功能深度解读

CogVideoX-2b一文详解：CSDN专用版核心功能深度解读 1. 让文字动起来：视频生成新体验你是否曾经想过，只需要输入一段文字描述，就能让电脑自动生成一段视频？这听起来像是科幻电影里的场景，但现在通过CogVi…...

编程新知 2026/3/21 7:43:35

文章目录

基于管道持久化存储操作

scrapy的使用步骤

1.先转到想创建工程的目录下：cd …

2.创建一个工程

3.创建之后要转到工程目录下

4.在spiders子目录中创建一个爬虫文件

5.执行工程

setting文件中的参数

基于管道持久化存储的步骤：

持久化存储1：保存到本地txt文档。

1. 数据解析

2. 在item类中定义相关的属性

3. 将解析的数据封装存储到item类型的对象

4. 将item类型的对象提交给管道进行持久化存储的操作

5. 在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作

6. 在配置文件中开启管道

运行结果：

持久化存储2：保存到数据库中。

前言

1234步与持久化存储1完全相同。

5. 在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作

6. 在配置文件中开启管道

运行结果

后记：

相关文章：