当前位置：首页 > news >正文

Scrapy爬取heima论坛所有页面内容并保存到数据库中

news 2026/2/7 19:41:58

前期准备：

Scrapy入门_win10安装scrapy-CSDN博客

新建 Scrapy项目

scrapy startproject mySpider03 # 项目名为mySpider03

进入到spiders目录

cd mySpider03/mySpider03/spiders

创建爬虫

scrapy genspider heima bbs.itheima.com # 爬虫名为heima ，爬取域为bbs.itheima.com

制作爬虫

items.py:

import scrapyclass heimaItem(scrapy.Item):title = scrapy.Field()url = scrapy.Field()

heima.py:

import scrapy
from scrapy.selector import Selector
from mySpider03.items import heimaItemclass HeimaSpider(scrapy.Spider):name = 'heima'allowed_domains = ['bbs.itheima.com']start_urls = ['http://bbs.itheima.com/forum-425-1.html']def parse(self, response):print('response.url: ', response.url)selector = Selector(response)node_list = selector.xpath("//th[@class='new forumtit'] | //th[@class='common forumtit']")for node in node_list:# 文章标题title = node.xpath('./a[1]/text()')[0].extract()# 文章链接url = node.xpath('./a[1]/@href')[0].extract()# 创建heimaItem类item = heimaItem()item['title'] = titleitem['url'] = urlyield item

pipelines.py:

from itemadapter import ItemAdapter
from pymongo import MongoClientclass heimaPipeline:def open_spider(self, spider):# MongoDB 连接设置  self.MONGO_URI = 'mongodb://localhost:27017/'  self.DB_NAME = 'heima'  # 数据库名称  self.COLLECTION_NAME = 'heimaNews'  # 集合名称self.client = MongoClient(self.MONGO_URI)self.db = self.client[self.DB_NAME]self.collection = self.db[self.COLLECTION_NAME]# 如果集合中已有数据，清空集合self.collection.delete_many({})print('爬取开始')def process_item(self, item, spider):title = item['title']url = item['url']# 将item转换为字典item_dict = {'title': title,'url': url,}# 插入数据self.collection.insert_one(item_dict)return item   def close_spider(self, spider):print('爬取结束，显示数据库中所有元素')cursor = self.collection.find()for document in cursor:print(document)self.client.close()

settings.py，解开ITEM_PIPELINES的注释，并修改其内容:

ITEM_PIPELINES = {

'mySpider03.pipelines.heimaPipeline': 300,

}

创建run.py:

from scrapy import cmdlinecmdline.execute("scrapy crawl heima -s LOG_ENABLED=False".split())# cd mySpider03/mySpider03/spiders

运行run.py文件，即可实现爬取第一页'http://bbs.itheima.com/forum-425-1.html'内容并保存到数据库中的功能。

结果如下图：

爬取到了50条数据。

爬取所有页面

方法一：通过获取下一页url地址的方法爬取所有页面。

在heima.py的parse方法结尾加上以下内容：

# 获取下一页的链接

if '下一页' in response.text:

next_url = selector.xpath("//a[@class='nxt']/@href").extract()[0]

yield scrapy.Request(next_url, callback=self.parse)

即heima.py：

import scrapy
from scrapy.selector import Selector
from mySpider03.items import heimaItemclass HeimaSpider(scrapy.Spider):name = 'heima'allowed_domains = ['bbs.itheima.com']start_urls = ['http://bbs.itheima.com/forum-425-1.html']def parse(self, response):print('response.url: ', response.url)selector = Selector(response)node_list = selector.xpath("//th[@class='new forumtit'] | //th[@class='common forumtit']")for node in node_list:# 文章标题title = node.xpath('./a[1]/text()')[0].extract()# 文章链接url = node.xpath('./a[1]/@href')[0].extract()# 创建heimaItem类item = heimaItem()item['title'] = titleitem['url'] = urlyield item# 获取下一页的链接if '下一页' in response.text:next_url = selector.xpath("//a[@class='nxt']/@href").extract()[0]yield scrapy.Request(next_url, callback=self.parse)

爬取结果：

爬取到了70页，一共3466条数据。

# 在cmd中输入以下命令，查看数据库中的数据：
> mongosh # 启动mongoDB
> show dbs # 查看所有数据库
> use heima # 使用heima数据库
> db.stats() # 查看当前数据库的信息
> db.heimaNews.find() # 查看heimaNews集合中的所有文档

方法二：使用crawlspider提取url链接

新建crawlspider类的爬虫

scrapy genspider -t crawl heimaCrawl bbs.itheima.com

# 爬虫名为heimaCrawl ，爬取域为bbs.itheima.com

2.1在rules中通过xpath提取链接

修改heimaCrawl.py文件：

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from mySpider03.items import heimaItemclass HeimacrawlSpider(CrawlSpider):name = 'heimaCrawl'allowed_domains = ['bbs.itheima.com']start_urls = ['http://bbs.itheima.com/forum-425-1.html']rules = (Rule(LinkExtractor(restrict_xpaths=r'//a[@class="nxt"]'), callback='parse_item', follow=True),)# 处理起始页面内容，如果不重写该方法，则只爬取满足rules规则的链接，不会爬取起始页面内容def parse_start_url(self, response):# 调用 parse_item 处理起始页面return self.parse_item(response)def parse_item(self, response):print('CrawlSpider的response.url: ', response.url)node_list = response.xpath("//th[@class='new forumtit'] | //th[@class='common forumtit']")for node in node_list:# 文章标题title = node.xpath('./a[1]/text()')[0].extract()# 文章链接url = node.xpath('./a[1]/@href')[0].extract()# 创建heimaItem类item = heimaItem()item['title'] = titleitem['url'] = urlyield item

修改run.py:

# heimaCrawl

cmdline.execute("scrapy crawl heimaCrawl -s LOG_ENABLED=False".split())

爬取结果：

爬取到全部70页，一共3466条数据。

2.2在rules中通过正则表达式提取链接

修改heimaCrawl.py文件：

rules = (

Rule(LinkExtractor(allow=r'forum-425-\d+\.html'), callback='parse_item', follow=True),

)

结果：

一共爬取到3516条数据。

Scrapy爬取heima论坛所有页面内容并保存到数据库中

前期准备： Scrapy入门_win10安装scrapy-CSDN博客新建 Scrapy项目 scrapy startproject mySpider03 # 项目名为mySpider03 进入到spiders目录 cd mySpider03/mySpider03/spiders 创建爬虫 scrapy genspider heima bbs.itheima.com # 爬虫名为heima &#…...

编程日记 2024/11/12 13:19:35

Kafka参数了解

Kafka配置参数完整说明 1. 基础配置参数名说明推荐值参考值broker.idbroker的唯一标识符每个节点唯一的整数1delete.topic.enable是否允许删除topictruetruelistenersbroker监听地址SASL_PLAINTEXT://host:9092SASL_PLAINTEXT://172.24.77.15:9092advertised.listeners对外发…...

编程日记 2024/11/12 13:17:33

sql专题之 where和join on

文章目录前言where介绍使用过滤结果集关联两个表连接外连接内连接自然连接使用inner join和直接使用where关联两个表的区别总结前言从数据库查询数据时，一张表不足以查询到我们想要的数据，更多的时候我们需要联表查询。联表查询我们一般会使用连接…...

编程日记 2024/11/12 13:14:30

day12:版本控制器

版本控制使用到的命令： ls -al查看当前目录下的文件及文件夹mkdir新建目录rm -rf递归强制删除文件夹一、安装配置 1、下载地址 Git 2、初始配置 #用户名 git config --global user.name "自定义用户名" #邮箱（公司的联系方式--追责&…...

编程日记 2024/11/12 13:13:29

第四十一章 Vue之初识VueX

目录一、引言 1.1. vuex的概念 1.2. vuex使用场景 1.3. 优势二、创建演示项目 2.1. 构建项目步骤 2.2. 项目最终生成结构 2.3. 创建项目文件 2.3.1. App.vue 2.3.2. Son1.vue 2.3.3. Son2.vue 三、创建一个空仓库 3.1. 安装vuex 3.2. 新建仓库 3.3. 挂载仓库…...

编程日记 2024/11/12 13:10:25

GIT的基本使用与进阶

GIT的简单入门一.什么是git？ Git 是一个开源的分布式版本控制系统，用于跟踪文件更改、管理代码版本以及协作开发。它主要由 Linus Torvalds 于 2005 年创建，最初是为 Linux 内核开发而设计的。如今，Git 已经成为现代软件开发中…...

编程日记 2024/11/12 13:09:23

【Linux系统】—— 基本指令（二）

【Linux系统】—— 基本指令（二） 1 「alias」命令1.1 「ll」命令1.2 「alias」命令 2 「rmdir」指令与「rm」指令2.1 「rmdir」2.2 「rm」2.2.1 「rm」删除普通文件2.2.2 「rm」删除目录2.2.3 『 * 』通配符 3 「man」指令4 「cp」指令4.1 拷贝普通…...

编程日记 2024/11/12 13:08:22

MFC工控项目实例三十实现一个简单的流程

启动按钮夹紧密闭，时间0到平衡进气，时间1到进气关，时间2到平衡关检测，时间3到平衡排气，时间4到夹紧开、密闭开、排气关。相关代码 void CSEAL_PRESSUREDlg::OnTimer_2(UINT nIDEvent_2) {// if (nIDEvent_21 &am…...

编程日记 2024/11/12 13:07:21

【Android、IOS、Flutter、鸿蒙、ReactNative 】文本点击事件

Android Studio 版本 Android Java TextView 实现点击事件参考 import androidx.appcompat.app.AppCompatActivity; import android.os.Bundle; import android.util.Log; import android.view.View; import android.widget.TextView; import android.widget.Toast;public c…...

编程日记 2024/11/12 13:06:20

json转excel，读取json文件写入到excel中【rust语言】

一、rust代码将json文件写入到 excel中。（保持json ：key原始顺序） use indexmap::IndexMap; use serde::Deserialize; use serde_json::{Value, from_str}; use std::error::Error; use std::io::{self, Write}; use std::path::{Path}; u…...

编程日记 2024/11/12 13:05:19

Java面试要点06 - static关键字、静态属性与静态方法

本文目录一、引言二、静态属性（Static Fields）三、静态方法（Static Methods）四、静态代码块（Static Blocks）五、静态内部类（Static Nested Classes）六、静态导入（Static…...

编程日记 2024/11/12 13:03:16

动态规划-背包问题——416.分割等和子集

1.题目解析题目来源 416.分割等和子集——力扣测试用例 2.算法原理 1.状态表示这里背包问题基本上和母题的思路大相径庭，母题请见 [模板]01.背包 ，这里的状态表示与装满背包的情况类似，第二个下标就是当选择的物品体积直接等于j时是否可…...

编程日记 2024/11/12 13:01:14

Pr：视频过渡快速参考（合集 · 2025版）

Adobe Premiere Pro 自带七组约四十多个视频过渡 Video Transitions效果，包含不同风格和用途，可在两个剪辑之间创造平滑、自然的转场，用来丰富时间、地点或情绪的变化。恰当地应用过渡可让观众更好地理解故事或人物。提示： 点击下…...

编程日记 2024/11/12 13:00:13

网络安全---安全见闻2

网络安全—安全见闻拓宽视野不仅能够丰富我们的知识体系，也是自我提升和深造学习的重要途径！！！ 设备漏洞问题操作系统漏洞渗透测试视角：硬件设备上的操作系统可能存在各种漏洞，攻击者可以利用这些漏洞…...

编程日记 2024/11/12 12:58:11

解决因为TortoiseSVN未安装cmmand line client tools组件，导致idea无法使用svn更新、提交代码

一.错误信息 1.更新代码时：SVN: 更新错误找不到要更新的版本管理目录。 2.提交代码：检测不到任何更新（实际上有代码修改）。 3.Cannot run program "svn"。二.原因分析在电脑上新安装的的客户端TortoiseSVN、ide…...

编程日记 2024/11/12 12:57:10

Ubuntu 20.04安装CUDA 11.0、cuDNN 8.0.5

不知道咋弄的ubuntu20.04电脑的cuda驱动丢了，无奈需装PyTorch环境，只有CUDA11.0以上版本才支持Ubuntu20.04，所以安装了CUDA11.0、cuDNN8.0.5 为防止频繁在浏览器检索对应的贴子，今天记录一下。一. 驱动安装为防止驱动安装后没…...

编程日记 2024/11/12 12:53:06

鸿蒙 APP 发布上架

证书创建与打包： https://developer.huawei.com/consumer/cn/doc/app/agc-help-releaseharmony-0000001933963166 不同环境多渠道打包： //todo 备案相关一、除了发布应用商店以外，还有3个渠道，都适合小规模内测。【1】开放式测试：发给指定白名单用户【2】发布企业内…...

编程日记 2024/11/12 12:52:05

【C++笔记】C++三大特性之继承

【C笔记】C三大特性之继承 🔥个人主页：大白的编程日记 🔥专栏：C笔记文章目录【C笔记】C三大特性之继承前言一.继承的概念及定义1.1 继承的概念1.2继承的定义1.3继承基类成员访问方式的变化1.4继承类模板二.基类和派生类间的转…...

编程日记 2024/11/12 12:51:04

如何在CentOS 7上搭建SMB服务

如何在CentOS 7上搭建SMB服务因项目测试需求，需要自行搭建SMB服务，**SMB（Server Message Block）**协议是一种常用的文件共享方式，它可以让不同操作系统之间共享文件、打印机等资源。本文将带你一步步搭建一个简单的S…...

编程日记 2024/11/12 12:49:02

linux详解，基本网络枚举

基本网络枚举一、基本网络工具 ifconfig ifconfig是一个用于配置和显示网络接口信息的命令行工具。它可以显示网络接口的P地址、子网掩码、MC地址等信息，还可以用于启动、停止或配置网络接口。 ip ip也是用于查看和管理网络接口的命令。它提供了比ifconfig更…...

编程日记 2024/11/12 12:48:01

云计算——弹性云计算器（ECS）

弹性云服务器：ECS 概述云计算重构了ICT系统，云计算平台厂商推出使得厂家能够主要关注应用管理而非平台管理的云平台，包含如下主要概念。 ECS（Elastic Cloud Server）：即弹性云服务器，是云计算…...

编程新知 2025/8/16 21:50:27

JVM垃圾回收机制全解析

Java虚拟机（JVM）中的垃圾收集器（Garbage Collector，简称GC）是用于自动管理内存的机制。它负责识别和清除不再被程序使用的对象，从而释放内存空间，避免内存泄漏和内存溢出等问题。垃圾收集器在Ja…...

编程新知 2026/1/9 14:53:35

【2025年】解决Burpsuite抓不到https包的问题

环境：windows11 burpsuite:2025.5 在抓取https网站时，burpsuite抓取不到https数据包，只显示： 解决该问题只需如下三个步骤： 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...

编程新知 2026/1/28 3:43:20

python爬虫：Newspaper3k 的详细使用（好用的新闻网站文章抓取和解析的Python库）

更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...

编程新知 2025/10/25 7:51:48

VTK如何让部分单位不可见

最近遇到一个需求，需要让一个vtkDataSet中的部分单元不可见，查阅了一些资料大概有以下几种方式 1.通过颜色映射表来进行，是最正规的做法 vtkNew<vtkLookupTable> lut; //值为0不显示，主要是最后一个参数，透明度…...

编程新知 2025/12/12 4:55:21

selenium学习实战【Python爬虫】

selenium学习实战【Python爬虫】文章目录 selenium学习实战【Python爬虫】一、声明二、学习目标三、安装依赖3.1 安装selenium库3.2 安装浏览器驱动3.2.1 查看Edge版本3.2.2 驱动安装四、代码讲解4.1 配置浏览器4.2 加载更多4.3 寻找内容4.4 完整代码五、报告文件爬取5.1 提…...

编程新知 2026/2/4 12:52:32