当前位置：首页 > news >正文

Python 如何进行Web抓取（BeautifulSoup, Scrapy）

news 文章来源：https://blog.csdn.net/Itmastergo/article/details/140866627 2025/4/28 6:09:28

Web抓取（Web Scraping）是一种从网站提取数据的技术。Python有许多用于Web抓取的库，其中最常用的是BeautifulSoup和Scrapy。

BeautifulSoup

BeautifulSoup是一个用于解析HTML和XML文档的Python库，适合处理简单的Web抓取任务。它将复杂的HTML文档转换成一个可遍历的解析树，可以方便地找到需要的元素。

安装BeautifulSoup

要使用BeautifulSoup，首先需要安装它以及请求库requests：

pip install beautifulsoup4
pip install requests

导入BeautifulSoup

from bs4 import BeautifulSoup
import requests

获取网页内容

首先需要获取网页的HTML内容，可以使用requests库：

url = 'http://example.com'
response = requests.get(url)
html_content = response.content

解析HTML

使用BeautifulSoup解析HTML内容：

soup = BeautifulSoup(html_content, 'html.parser')

查找元素

BeautifulSoup提供了多种查找元素的方法，如find、find_all、select等。

# 查找第一个<p>标签
p_tag = soup.find('p')
print(p_tag.text)# 查找所有<a>标签
a_tags = soup.find_all('a')
for tag in a_tags:print(tag.get('href'))# 使用CSS选择器
header = soup.select_one('h1')
print(header.text)

处理属性

可以方便地获取标签的属性：

img_tag = soup.find('img')
print(img_tag['src'])

示例：抓取一个博客的标题和链接

以下是一个简单的示例，展示如何抓取一个博客页面的所有文章标题和链接：

url = 'http://example-blog.com'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')articles = soup.find_all('article')
for article in articles:title = article.find('h2').textlink = article.find('a')['href']print(f'Title: {title}, Link: {link}')

Scrapy

Scrapy是一个功能强大的Web抓取和Web爬虫框架，适用于复杂的抓取任务。它具有高性能、可扩展性强、支持异步处理等特点。

安装Scrapy

使用pip安装Scrapy：

pip install scrapy

创建Scrapy项目

首先需要创建一个Scrapy项目：

scrapy startproject myproject
cd myproject

创建爬虫

在Scrapy项目中，可以创建一个新的爬虫：

scrapy genspider myspider example.com

这将在spiders目录下生成一个名为myspider.py的文件。

编写爬虫

打开myspider.py，可以看到一个基本的爬虫模板。我们将修改这个模板来实现抓取任务。

import scrapyclass MySpider(scrapy.Spider):name = 'myspider'start_urls = ['http://example.com']def parse(self, response):# 解析响应for article in response.css('article'):title = article.css('h2::text').get()link = article.css('a::attr(href)').get()yield {'title': title,'link': link}

运行爬虫

在命令行中运行爬虫：

scrapy crawl myspider -o output.json

这将抓取example.com并将结果保存到output.json文件中。

Scrapy中的重要概念

Item：定义抓取的数据结构。
Spider：定义如何抓取网站的爬虫。
Pipeline：定义数据处理和存储的流程。
Middleware：处理请求和响应的中间件。

定义Item

可以在items.py中定义Item：

import scrapyclass MyprojectItem(scrapy.Item):title = scrapy.Field()link = scrapy.Field()

然后在爬虫中使用Item：

from myproject.items import MyprojectItemclass MySpider(scrapy.Spider):name = 'myspider'start_urls = ['http://example.com']def parse(self, response):for article in response.css('article'):item = MyprojectItem()item['title'] = article.css('h2::text').get()item['link'] = article.css('a::attr(href)').get()yield item

使用Pipeline处理数据

在pipelines.py中定义Pipeline：

class MyprojectPipeline:def process_item(self, item, spider):# 处理itemreturn item

在settings.py中启用Pipeline：

ITEM_PIPELINES = {'myproject.pipelines.MyprojectPipeline': 300,
}

示例：抓取一个电商网站的商品信息

以下是一个完整的示例，展示如何使用Scrapy抓取一个电商网站的商品信息。

首先定义Item：

# items.py
import scrapyclass ProductItem(scrapy.Item):name = scrapy.Field()price = scrapy.Field()availability = scrapy.Field()

然后编写爬虫：

# spiders/products_spider.py
import scrapy
from myproject.items import ProductItemclass ProductsSpider(scrapy.Spider):name = 'products'start_urls = ['http://example-ecommerce.com/products']def parse(self, response):for product in response.css('div.product'):item = ProductItem()item['name'] = product.css('h3.product-name::text').get()item['price'] = product.css('span.product-price::text').get()item['availability'] = product.css('span.availability::text').get()yield item# 处理分页next_page = response.css('a.next-page::attr(href)').get()if next_page:yield response.follow(next_page, self.parse)

最后启用Pipeline并运行爬虫：

# pipelines.py
class ProductPipeline:def process_item(self, item, spider):# 处理商品信息return item# settings.py
ITEM_PIPELINES = {'myproject.pipelines.ProductPipeline': 300,
}# 运行爬虫
scrapy crawl products -o products.json

BeautifulSoup和Scrapy各有优缺点，BeautifulSoup适合处理简单的抓取任务，使用方便，代码简洁；而Scrapy则更适合处理复杂的抓取任务，具有强大的功能和高效的性能。在实际项目中，可以根据具体需求选择合适的工具，甚至结合使用这两个库，以充分发挥各自的优势。

Python 如何进行Web抓取（BeautifulSoup, Scrapy）

Web抓取（Web Scraping）是一种从网站提取数据的技术。Python有许多用于Web抓取的库，其中最常用的是BeautifulSoup和Scrapy。 BeautifulSoup BeautifulSoup是一个用于解析HTML和XML文档的Python库，适合处理简单的Web抓取任务。它将…...

编程日记 2024/8/5 14:59:48

白骑士的PyCharm教学进阶篇 2.5 数据库连接与管理

系列目录上一篇：白骑士的PyCharm教学进阶篇 2.4 Django开发支持在Web开发中，数据库是必不可少的部分。PyCharm不仅是一款功能强大的IDE，还提供了丰富的数据库连接和管理工具，使开发者可以更方便地浏览和操作数据库。本篇将详细…...

编程日记 2024/8/5 14:58:46

（五）activiti-modeler 编辑器初步优化

最终效果： 1..首先去掉顶部的logo，没什么用，还占用空间。修改modeler.html文件，添加样式： <style type"text/css"> #main-header{display: none; } #main{padding: 0px; } </style> 2.左边组…...

编程日记 2024/8/5 14:57:45

(学习总结12)C++类和对象3

C类和对象3 一、初始化列表二、类型转换三、static成员四、友元五、内部类六、匿名对象以下代码环境在 VS2022。一、初始化列表之前我们实现构造函数时，初始化成员变量主要使用函数体内赋值，构造函数初始化还有⼀种方式，就是初始化列表&a…...

编程日记 2024/8/5 14:56:43

docxtpl，一个强大的 Python 库！

更多资料获取 📚 个人网站：ipengtao.com 大家好，今天为大家分享一个强大的 Python 库 - docxtpl。项目地址：https://docxtpl.readthedocs.io/en/latest/ 在日常工作中，自动生成和处理 Word 文档是一个常见需求。doc…...

编程日记 2024/8/5 14:55:41

捷途山海T2：超长续航，节能环保的驾驶新星

在当今的汽车市场中，消费者的购车选择日趋多样化，不再仅限于传统的燃油车。随着环保理念的深入人心以及人们对用车成本的日益关注，像捷途山海T2这样配备高效混动系统的车型逐渐受到大众的青睐。捷途山海T2，以其杰出的节能性、强劲…...

编程日记 2024/8/5 14:54:40

[Day 45] 區塊鏈與人工智能的聯動應用：理論、技術與實踐

區塊鏈的可擴展性挑戰概述區塊鏈技術在過去幾年中取得了顯著的進展，其去中心化、透明和安全的特性使其在金融、供應鏈管理、醫療等領域得到了廣泛應用。然而，區塊鏈技術的一個重大挑戰是其可擴展性。可擴展性是指系統能夠有效處理日益增長的數據和用…...

编程日记 2024/8/5 14:53:38

白骑士的PyCharm教学实战项目篇 4.3 自动化测试与持续集成

系列目录上一篇： 在现代软件开发过程中，自动化测试与持续集成（CI）是确保代码质量和快速交付的关键环节。PyCharm作为一款强大的集成开发环境（IDE），为自动化测试和持续集成提供了全面的支持。本…...

编程日记 2024/8/5 14:52:37

权限模块开发+权限与角色关联（完整CRUD）

文章目录 🌞 Sun Frame：SpringBoot 的轻量级开发框架（个人开源项目推荐）🌟 亮点功能📦 spring cloud模块概览常用工具 🔗 更多信息1.easycode生成代码1.配置2.AuthPermissionDao.java剪切到mapp…...

编程日记 2024/8/5 14:51:36

llama神经网络的结构，llama-3-8b.layers=32 llama-3-70b.layers=80； 2000汉字举例说明

目录 llama-3-8b.layers=32 llama-3-70b.layers=80 llama神经网络的结构 Llama神经网络结构示例示例中的输入输出大小实际举例说明2000个汉字文本数据集初始化词嵌入矩阵 1. 输入层 2. 嵌入层 3. 卷积层 4. 全连接层 llama-3-8b.layers=32 llama-3-70b.laye…...

编程日记 2024/8/5 14:50:34

单细胞数据怎么表现genes mRNA表达的热图？

愿武艺晴小朋友一定得每天都开心 #热图 library("ComplexHeatmap") exp <- AverageExpression(subset(fasting_memory, Celltype %in% c("Pre-B")), layer = "data", #即CPM值 features …...

编程日记 2024/8/5 14:49:32

Java聚合快递对接云洋系统小程序源码

🚀【物流新纪元】聚合快递如何无缝对接云洋系统，效率飙升秘籍大公开！✨ 🔍 开篇揭秘：聚合快递的魅力所在 Hey小伙伴们，你是否还在为多家快递公司账号管理繁琐、订单处理效率低下而头疼？&#…...

编程日记 2024/8/5 14:48:30

MySQL——数据表的基本操作（三）修改数据表

有时候，希望对表中的某些信息进行修改，这时就需要修改数据表。所谓修改数据表指的是修改数据库中已经存在的数据表结构，比如，修改表名、修改字段名、修改字段的数据类型等。在 MySQL中，修改数据表的操作都是使用 ALTER…...

编程日记 2024/8/5 14:46:28

医学图像分割的基准：TransUnet（用于医学图像分割的Transformer编码器）器官分割

1、 TransUnet 介绍 TransUnet是一种用于医学图像分割的深度学习模型。它是基于Transformer模型的图像分割方法，由AI研究公司Hugging Face在2021年提出。医学图像分割是一项重要的任务，旨在将医学图像中的不同结构和区域分离出来，以便医生可…...

编程日记 2024/8/5 14:43:24

java-swing编写学生成绩查询管理系统

本文是本人大二上实训项目-学生成绩查询管理系统，采用本项目使用Java、MySQL技术。界面框架由Java Swing搭建，用JDBC实现Java与MySQL的连接。本项目适合初学java和mysql的同学，来做一些小项目来提升自己，因为兴趣所以想要做去尝…...

编程日记 2024/8/5 14:42:23

volatile浅解

volatile修饰的变量有两个特点线程中修改了自己工作内存中的副本后，立即将其刷新到主内存工作内存中每次读取共享变量时，都会去主内存中重新读取，然后拷贝到工作内存内存 -> CPU Cache -> CPU 如果没有volatile那么就会继续读取缓存…...

编程日记 2024/8/5 14:41:21

世媒讯带您了解什么是媒体邀约

什么是媒体邀约？其实媒体邀约是一种公关策略，旨在通过邀请媒体记者和编辑参加特定的活动、发布会或其他重要事件，以确保这些活动能够得到广泛的报道和关注。通过这种方式，企业和组织希望能够传达重要信息，提高品牌知名…...

编程日记 2024/8/5 14:40:20

[Kimi 笔记]“面向搜索引擎”

"面向搜索引擎"（Search Engine-Oriented，SEO-Oriented 或 SEO-Friendly）通常指的是在设计和开发网站时，采取一系列措施来优化网站内容和结构，以便提高网站在搜索引擎结果页面（SERP）中…...

编程日记 2024/8/5 14:39:19

如何在亚马逊云科技AWS上利用LoRA高效微调AI大模型减少预测偏差

简介： 小李哥将继续每天介绍一个基于亚马逊云科技AWS云计算平台的全球前沿AI技术解决方案，帮助大家快速了解国际上最热门的云计算平台亚马逊云科技AWS AI最佳实践，并应用到自己的日常工作里。在机器学习和人工智能领域，生成偏差…...

编程日记 2024/8/5 14:38:18

订单定时状态处理业务(SpringTask)

文章目录概要整体架构流程技术细节小结概要订单定时状态处理通常涉及到对订单状态进行定期检查，并根据订单的状态自动执行某些操作，比如关闭未支付的订单、自动确认收货等. 需求分析以及接口设计需求分析用户下单后可能存在的情况： …...

编程日记 2024/8/5 14:37:17

STM32 | ADC+RS485(第十天)

点击上方"蓝字"关注我们 01、ADC概述 ADC, Analog-to-Digital Converter的缩写,指模/数转换器或者模拟/数字转换器。是指将连续变量的模拟信号转换为离散的数字信号的器件。真实世界的模拟信号.例如温度、压力、声音或者图像等，需要转换成更容易储存、处理和发射的…...

编程日记 2024/8/5 14:36:14

python打包成能够在mac里面运行的程序

要将你的PyQt5应用程序打包成可以在macOS上运行的独立应用程序，可以使用工具如PyInstaller或py2app。下面是使用py2app的详细步骤，因为它是macOS上专用的打包工具，并且更好地支持PyQt5。 1. 安装py2app 首先，确保你的macOS系统上…...

编程日记 2024/8/5 14:35:13

基于FPGA的数字信号处理（20）--半减器和全减器

目录 1、前言 2、半减器 3、全减器 4、减法器文章总目录点这里：《基于FPGA的数字信号处理》专栏的导航与说明 1、前言既然有半加器和全加器，那自然也有半减器和全减器了。尽管在电路中减法的实现基本都是补码加法的形式，但是正所谓…...

编程日记 2024/8/5 14:33:11

Python：单引号，双引号，三引号的区别

在Python中，单引号（）、双引号（"）和三引号（ 或 """）都可以用来定义字符串，但它们之间有一些区别： 单引号（）和双引号&#xf…...

编程日记 2024/8/5 14:31:08

电子电气架构 ---SOMEIP/SD初入门

我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：屏蔽力是信息过载时代一个人的特殊竞争力，任何消耗你的人和事，多看一眼都是你的不对。非必要不费力证明自己，无利益不试图说服别人，是精神上的节…...

编程日记 2024/8/5 14:29:05

一些数学基础概念

一些数学基础概念概率密度函数(PDF) 概率密度函数（Probability Density Function，简称 PDF）是描述连续随机变量的概率分布的一种函数。它用来表示随机变量在各个取值区间内的概率密度。 1. 定义对于一个连续随机变量 ( X )，…...

编程日记 2024/8/5 14:28:04

责任有限公司的一般组织结构

责任有限公司（有限责任公司，LLC）的组织结构通常是为了确保公司运营的有效性和管理的透明度。以下是一般责任有限公司的组织结构及其主要组成部分： 1. 股东（Shareholders） 职责和角色所有者：…...

编程日记 2024/8/5 14:24:00

Leetcode3227. 字符串元音游戏

Every day a Leetcode 题目来源：3227. 字符串元音游戏解法1：博弈论分类讨论： 如果 s 不包含任何元音，小红输。如果 s 包含奇数个元音，小红可以直接把整个 s 移除，小红赢。如果 s 包含正偶数个元音&am…...

编程日记 2024/8/5 14:20:56

网络流量分析在运维管理中的重要性与实施策略

在运维管理工作中，网络流量分析是一项不可或缺的技术手段。通过对网络流量的深入剖析，运维团队能够更全面地了解网络状态，及时发现潜在问题，优化网络性能，从而确保企业网络的稳定与高效运行。本文将详细探讨网络流量分…...

编程日记 2024/8/5 14:19:54

通信原理实验——PCM编译码

PCM编译码实验目的理解PCM编译码原理及PCM编译码性能熟悉PCM编译码专用集成芯片的功能和使用方法及各种时钟关系熟悉语音数字化技术的主要指标及测量方法主要仪器设备及软件硬件：多功能实验箱、示波器、导线软件：无实验原理 1. 抽样信号的量…...

编程日记 2024/8/5 14:18:53