当前位置：首页 > news >正文

Python爬虫原理以及3个小案例（源码）

news 2026/2/8 15:47:51

一、爬虫原理

网络爬虫是一种用于自动获取网页内容的程序。它模拟用户浏览网页的过程，通过发送HTTP请求获取网页的源代码，并利用解析和提取技术来获取所需的数据。

1. HTTP请求与响应过程

爬虫向目标网站发送HTTP请求，请求包含URL、请求方法（如GET或POST）、请求头（Headers）等。服务器接收到请求后，会返回HTTP响应，其中包含状态码、响应头和响应体（网页内容）。

2. 常用爬虫技术

请求库：例如requests和aiohttp，用于发送HTTP请求。
解析库：例如BeautifulSoup、lxml和PyQuery，用于解析网页内容。
存储库：例如pandas和SQLite，用于存储爬取的数据。
异步库：例如asyncio和aiohttp，用于实现异步爬虫，提高爬取效率。

二、Python爬虫常用库

1. 请求库

requests：一个简洁而强大的HTTP库，支持HTTP连接保持和连接池、SSL证书验证、Cookies等。
aiohttp：一个基于asyncio的异步HTTP库，适合高并发的爬虫场景。

2. 解析库

BeautifulSoup：一个用于解析HTML和XML的库，简单易用，支持多种解析器。
lxml：一个高效的XML和HTML解析库，支持XPath和CSS选择器。
PyQuery：一个Python版的jQuery，语法与jQuery类似，易于上手。

3. 存储库

pandas：一个强大的数据分析库，提供数据结构和数据分析工具，支持多种文件格式。
SQLite：一个轻量级的数据库，支持SQL查询，适用于小型爬虫项目。

接下来，将通过7个Python爬虫的小案例，帮助大家更好地学习和理解Python爬虫的基础知识。以下是每个案例的简介和源代码：

案例1：爬取豆瓣电影Top250

这个案例使用BeautifulSoup库爬取豆瓣电影Top250的电影名称、评分和评价人数等信息，并将这些信息保存到CSV文件中。

import requests
from bs4 import BeautifulSoup
import csv# 请求URL
url = 'https://movie.douban.com/top250'
# 请求头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}# 解析页面函数
def parse_html(html):soup = BeautifulSoup(html, 'lxml')movie_list = soup.find('ol', class_='grid_view').find_all('li')for movie in movie_list:title = movie.find('div', class_='hd').find('span', class_='title').get_text()rating_num = movie.find('div', class_='star').find('span', class_='rating_num').get_text()comment_num = movie.find('div', class_='star').find_all('span')[-1].get_text()writer.writerow([title, rating_num, comment_num])# 保存数据函数
def save_data():f = open('douban_movie_top250.csv', 'a', newline='', encoding='utf-8-sig')global writerwriter = csv.writer(f)writer.writerow(['电影名称', '评分', '评价人数'])for i in range(10):url = 'https://movie.douban.com/top250?start=' + str(i * 25) + '&filter='response = requests.get(url, headers=headers)parse_html(response.text)f.close()if __name__ == '__main__':save_data()

案例2：爬取猫眼电影Top100

这个案例使用正则表达式和requests库爬取猫眼电影Top100的电影名称、主演和上映时间等信息，并将这些信息保存到TXT文件中。

import requests
import re# 请求URL
url = 'https://maoyan.com/board/4'
# 请求头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}# 解析页面函数
def parse_html(html):pattern = re.compile('<p class="name"><a href=".*?" title="(.*?)" data-act="boarditem-click" data-val="{movieId:\\\\d+}">(.*?)</a></p>.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>', re.S)items = re.findall(pattern, html)for item in items:yield {'电影名称': item[1],'主演': item[2].strip(),'上映时间': item[3]}# 保存数据函数
def save_data():f = open('maoyan_top100.txt', 'w', encoding='utf-8')for i in range(10):url = 'https://maoyan.com/board/4?offset=' + str(i * 10)response = requests.get(url, headers=headers)for item in parse_html(response.text):f.write(str(item) + '\n')f.close()if __name__ == '__main__':save_data()

案例3：爬取全国高校名单

这个案例使用正则表达式和requests库爬取全国高校名单，并将这些信息保存到TXT文件中。

import requests
import re# 请求URL
url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html'
# 请求头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}# 解析页面函数
def parse_html(html):pattern = re.compile('<tr class="alt">.*?<td>(.*?)</td>.*?<td><div align="left">.*?<a href="(.*?)" target="_blank">(.*?)</a></div></td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>.*?</tr>', re.S)items = re.findall(pattern, html)for item in items:yield {'排名': item[0],'学校名称': item[2],'省市': item[3],'总分': item[4]}# 保存数据函数
def save_data():f = open('university_top100.txt', 'w', encoding='utf-8')response = requests.get(url, headers=headers)for item in parse_html(response.text):f.write(str(item) + '\n')f.close()if __name__ == '__main__':save_data()

Python爬虫原理以及3个小案例（源码）

一、爬虫原理网络爬虫是一种用于自动获取网页内容的程序。它模拟用户浏览网页的过程，通过发送HTTP请求获取网页的源代码，并利用解析和提取技术来获取所需的数据。 1. HTTP请求与响应过程爬虫向目标网站发送HTTP请求，请求包含URL、请求方…...

编程日记 2024/7/10 8:50:42

Vagrant配合VirtualBox搭建虚拟机

目录前言一、软件下载及安装1.下载2.安装扩展： 二、创建一个虚拟机1.Vagrant官方镜像仓库三、使用远程工具连接虚拟机1.修改相关配置文件四、虚拟机克隆及使用1.通用配置2.简单搭建一个java环境3.克隆虚拟机1.重命名虚拟机（可选）2.打包指定…...

编程日记 2024/7/10 8:49:41

Elasticsearch 建议（Suggesters）：实现自动补全和拼写检查

引言在现代搜索引擎中，自动补全和拼写检查功能已成为提升用户体验的重要工具。Elasticsearch，作为一款强大的分布式搜索和分析引擎，提供了多种Suggesters API来帮助开发者实现这些功能。本文将详细介绍Elasticsearch中的四种主要Suggester—…...

编程日记 2024/7/10 8:47:38

部署过docker后，防火墙firewall与iptables的基本指令

一、iptables【无需stop docker服务】如果服务器中部署了docker，优先选用iptables 1. 记录关闭docker中运行的mongoDB的27017端口： 由于docker与iptables存在配置规则，因此要修改docker相关端口的可访问性时需要使用下面的语句&#xff1a…...

编程日记 2024/7/10 8:46:37

华为 RIP 协议中 RIP 兼容版本、RIPv1、RIPv2 在收发 RIP 报文时的区别

RIP (Routing Information Protocol，路由信息协议） RIP 是一个比较早期的协议，在实际部署中较少使用，但RIP 协议的机制是所有矢量跻由协议的基础，因此，掌握 RIP 协议的工作原理对研究矢量路由协议有重要的…...

编程日记 2024/7/10 8:44:35

深度学习pytorch多机多卡网络配置桥接方法

1 安装pdsh（Parallel Distributed Shell） sudo apt install pdsh sudo -s # 切换超级用户身份 …...

编程日记 2024/7/10 8:43:34

服务器信息获取工具

功能介绍 SSH连接到远程服务器： 用户可以输入目标服务器的IP地址、用户名、密码以及SSH端口（默认22）。工具会尝试连接到远程服务器，并在连接失败时显示错误信息。运行命令并返回输出： 工具可以在远程服务器上运…...

编程日记 2024/7/10 8:42:33

当用户快速点击按钮时候。我们可以统一在请求拦截中做防止重复提交数据的处理以下是使用uview2封装的request请求 import { autoLogin, getUserInfo } from /utils/method.js import { refreshToken } from /api/login.js const serversUrl require(./serversUrl.js).ser…...

编程日记 2024/7/10 8:41:32

线程池工具类

线程池简述为什么需要一个线程池工具类？ 答：整个项目，用到线程执行任务的地方很多，不可能哪里用到就在那里直接new一个线程执行，这样资源得不到重复利用，一旦线程过多就会导致内存不足。线程池的好处是…...

编程日记 2024/7/10 8:39:29

印尼“支付宝” DANA 如何借力 OceanBase 实现3个“关键零”

当前，移动支付在东南亚正迅猛发展，据谷歌、淡马锡与贝恩公司发布的报告预测，东盟地区蓬勃兴起的移动支付市场有望在2030年突破至2万亿美元的交易规模。在此背景下，DANA作为印尼——东南亚最大经济体中的一员，秉持着推…...

编程日记 2024/7/10 8:38:28

2018-2022 年份微博签到数据集

前阵子接到一个实验室老师的需求，采集五年前（2024-52019）过年前后的北京微博签到数据。前两年采集的深圳签到数据是 2022 年是当年的尚可，这次虽然时间跨度只有两个月，但是由于时间太过久远，但是颇费了一…...

编程日记 2024/7/10 8:37:26

Avalonia开发实践（二）——开发带边框的Grid

一、开发背景在实际开发工作中，常常会用到Grid进行布局。为了美观考虑，会给每个格子加上边框，如下图： 原生的Grid虽然有ShowGridLines属性可以控制显示格子之间的线，但线的样式不能定义，可以说此功能非常…...

编程日记 2024/7/10 8:36:25

Java泛型的定义与运用

泛型泛型的作用从使用层面上来说是统一数据类型，防止将来的数据转换异常。从定义层面上来说，定义带泛型的类，方法等，将来使用的时候给泛型确定什么类型，泛型就会变成什么类型，凡是涉及到泛型的都会变成确…...

编程日记 2024/7/10 8:35:24

Java如何自定义注解及在SpringBoot中的应用

注解注解（Annotation），也叫元数据。一种代码级别的说明。它是JDK1.5及以后版本引入的一个特性，与类、接口、枚举是在同一个层次。它可以声明在包、类、字段、方法、局部变量、方法参数等的前面，用来对这些元素进行说…...

编程日记 2024/7/10 8:34:23

微软 Edge 浏览器全解析

微软 Edge 是微软推出的一个现代化浏览器，继承了 Internet Explorer（IE）的部分功能，但在速度、安全性和兼容性方面做出了很大改进。下面是对微软 Edge 浏览器的详细解析，包括其特点、安装、配置和常见问题的解答。微软 Edge 浏览器的特点基于 Chromium 内核 Edge 浏览…...

编程日记 2024/7/10 8:33:22

C++ 八股（1）

C语言中strcpy为什么不安全？如何解决？ 主要原因是缺乏对输入长度的边界检查，容易导致缓冲区溢出漏洞。解决：可以使用strncpy函数替代，或者在程序最顶端加入代码段 #define _CRT_SECURE_NO_WARNINGS 缓冲区溢出 …...

编程日记 2024/7/10 8:32:21

超高精电容传感器PCAP01调试+LABVIEW数据可视化调试手记

PCAP01超高精电容传感芯片STM32LabView可视化文章目录 PCAP01超高精电容传感芯片STM32LabView可视化一、PCAP01介绍1.1、PCAP01引脚定义1.2、电容测量1.3、温度测量1.4、PCAP典型测试电路二、PCAP01的STM32驱动2.1、SPI协议配置2.2、PCAP01浮空电容测量内部温度测量操作流程 …...

编程日记 2024/7/10 8:31:20

5.更多

发现一个项目与 MkDocs 类似的项目 PyMdown 拓展文档 ，等待探索。 1.排版模仿以下网站使用 MkDocs 构建 Material for MkDocs 的美化 - Charles Les Notebook (charleschile.com) Documentation - Home Assistant (home-assistant.io) Godot Docs – master bra…...

编程日记 2024/7/10 8:29:18

ConditionalOnJndi注解使用介绍、应用场景以及示例代码

概述 ConditionalOnJndi 是 Spring Framework 中的一个条件注解，用于在特定的 JNDI (Java Naming and Directory Interface) 环境条件下决定是否创建一个 bean 或配置一个 bean。JNDI 是 Java EE 规范中定义的一种用于访问命名和目录服务的 API，它允许 …...

编程日记 2024/7/10 8:28:17

Spring Cloud 引入

1.单体架构： 定义：所有的功能实现都打包成一个项目带来的后果： ①后端服务器的压力越来越大，负载越来越高，甚至出现无法访问的情况 ②业务越来越复杂，为了满足用户的需求，单体应用也会越来越…...

编程日记 2024/7/10 8:26:15

【大模型RAG】拍照搜题技术架构速览：三层管道、两级检索、兜底大模型

摘要拍照搜题系统采用“三层管道（多模态 OCR → 语义检索 → 答案渲染）、两级检索（倒排 BM25 向量 HNSW）并以大语言模型兜底”的整体框架： 多模态 OCR 层将题目图片经过超分、去噪、倾斜校正后，分别用…...

编程新知 2026/2/8 4:32:38

C++初阶-list的底层

目录 1.std::list实现的所有代码 2.list的简单介绍 2.1实现list的类 2.2_list_iterator的实现 2.2.1_list_iterator实现的原因和好处 2.2.2_list_iterator实现 2.3_list_node的实现 2.3.1. 避免递归的模板依赖 2.3.2. 内存布局一致性 2.3.3. 类型安全的替代方案 2.3.…...

编程新知 2026/2/4 17:44:58

在四层代理中还原真实客户端ngx_stream_realip_module

一、模块原理与价值 PROXY Protocol 回溯第三方负载均衡（如 HAProxy、AWS NLB、阿里 SLB）发起上游连接时，将真实客户端 IP/Port 写入 PROXY Protocol v1/v2 头。Stream 层接收到头部后，ngx_stream_realip_module 从中提取原始信息…...

编程新知 2026/1/4 5:02:00

从零开始打造 OpenSTLinux 6.6 Yocto 系统（基于STM32CubeMX）（九）

设备树移植和uboot设备树修改的内容同步到kernel将设备树stm32mp157d-stm32mp157daa1-mx.dts复制到内核源码目录下源码修改及编译修改arch/arm/boot/dts/st/Makefile，新增设备树编译 stm32mp157f-ev1-m4-examples.dtb \stm32mp157d-stm32mp157daa1-mx.dtb修改…...

编程新知 2026/2/5 12:11:18

新能源汽车智慧充电桩管理方案：新能源充电桩散热问题及消防安全监管方案

随着新能源汽车的快速普及，充电桩作为核心配套设施，其安全性与可靠性备受关注。然而，在高温、高负荷运行环境下，充电桩的散热问题与消防安全隐患日益凸显，成为制约行业发展的关键瓶颈。如何通过智慧化管理手段优化散…...

编程新知 2026/1/29 3:00:56

WordPress插件：AI多语言写作与智能配图、免费AI模型、SEO文章生成

厌倦手动写WordPress文章？AI自动生成，效率提升10倍！ 支持多语言、自动配图、定时发布，让内容创作更轻松！ AI内容生成 → 不想每天写文章？AI一键生成高质量内容！多语言支持 → 跨境电商必备&am…...

编程新知 2026/1/30 17:24:20

MySQL 8.0 OCP 英文题库解析（十三）

Oracle 为庆祝 MySQL 30 周年，截止到 2025.07.31 之前。所有人均可以免费考取原价245美元的MySQL OCP 认证。从今天开始，将英文题库免费公布出来，并进行解析，帮助大家在一个月之内轻松通过OCP认证。本期公布试题111~120 试题1…...

编程新知 2026/1/31 7:25:57

工业自动化时代的精准装配革新：迁移科技3D视觉系统如何重塑机器人定位装配

AI3D视觉的工业赋能者迁移科技成立于2017年，作为行业领先的3D工业相机及视觉系统供应商，累计完成数亿元融资。其核心技术覆盖硬件设计、算法优化及软件集成，通过稳定、易用、高回报的AI3D视觉系统，为汽车、新能源、金属制造等行…...

编程新知 2025/11/25 4:59:47

什么？连接服务器也能可视化显示界面？：基于X11 Forwarding + CentOS + MobaXterm实战指南

文章目录什么是X11？环境准备实战步骤1️⃣ 服务器端配置（CentOS）2️⃣ 客户端配置（MobaXterm）3️⃣ 验证X11 Forwarding4️⃣ 运行自定义GUI程序(Python示例)5️⃣ 成功效果![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/55aefaea8a9f477e86d065227851fe3d.pn…...

编程新知 2025/10/2 17:12:14

企业如何增强终端安全？

在数字化转型加速的今天，企业的业务运行越来越依赖于终端设备。从员工的笔记本电脑、智能手机，到工厂里的物联网设备、智能传感器，这些终端构成了企业与外部世界连接的 “神经末梢”。然而，随着远程办公的常态化和设备接入的爆炸式…...

编程新知 2026/1/29 9:14:58