Python 爬虫项目实战(二):爬取微博热搜榜
前言
网络爬虫(Web Crawler),也称为网页蜘蛛(Web Spider)或网页机器人(Web Bot),是一种按照既定规则自动浏览网络并提取信息的程序。爬虫的主要用途包括数据采集、网络索引、内容抓取等。
爬虫的基本原理
- 种子 URL:爬虫从一个或多个种子 URL 开始,这些 URL 是起点。
- 发送请求:爬虫向这些种子 URL 发送 HTTP 请求,通常是 GET 请求。
- 获取响应:服务器返回网页的 HTML 内容作为响应。
- 解析内容:爬虫解析 HTML 内容,提取所需的数据(如文本、链接、图片等)。
- 提取链接:从网页中提取出所有链接,并将这些链接加入待访问队列。
- 重复过程:爬虫重复上述步骤,直到达到某个停止条件,如爬取了一定数量的页面,或所有页面都被爬取完毕。
爬虫的分类
-
通用爬虫
- 设计用于抓取整个互联网的大量网页。搜索引擎(如 Google、Bing)的爬虫就是通用爬虫。
-
聚焦爬虫
- 专注于特定主题或领域,抓取相关网页。比如,一个新闻爬虫只抓取新闻网站的内容。
-
增量爬虫
- 仅抓取自上次爬取以来发生变化或更新的网页,适用于动态内容更新频繁的网站。
爬虫的合法性和道德
在编写和运行爬虫时,必须遵循以下原则:
-
遵守网站的
robots.txt
:-
大多数网站都有一个
robots.txt
文件,规定了哪些页面允许被爬取,哪些不允许。爬虫应当尊重这些规则。
-
-
避免过度抓取:
- 设置适当的抓取频率,避免对服务器造成过大负担。
-
尊重版权和隐私:
- 不应抓取或使用受版权保护的内容,或涉及用户隐私的数据。
-
获取许可:
- 在某些情况下,最好获得网站管理员的许可,特别是当你打算频繁地抓取大量数据时。
通过以上方法和原则,可以编写高效、可靠且合规的网络爬虫来满足数据采集的需求。
侦察
这个比较简单,直接抓包就可以看到数据来源
保存请求网址
检查数据在页面标签中的位置
标题在 td-02 中
热度在 span 中
源代码
import parsel
import csv
import requests# 创建 csv 文件
# 'a' 表示以追加模式(append mode)打开文件
# newline=''的作用是确保在写入文件时,所有的换行符都使用'\n'
f = open('res.csv', 'a', encoding='utf-8', newline='')# csv.DictWriter 类用于将字典格式的数据写入 CSV 文件
# 每个字典表示一行,字典的键对应 CSV 文件的列名
csv_writer = csv.DictWriter(f, fieldnames=['排名', '标题', '热度'])# 写入表头行,包含指定的字段名
csv_writer.writeheader()# 请求地址
url = 'https://s.weibo.com/top/summary?cate=realtimehot'# 伪造请求头及 cookie
headers = {'cookie': 'SUB=_2AkMR8Bzkf8NxqwFRmf0XzGvjb4x3zwHEieKnrO0_JRMxHRl-yT9kqmMHtRB6OnAyC3ZtjaT5q1jwM0_aHrCMEvlnAj-o; SUBP=0033WrSXqPxfM72-Ws9jqgMF55529P9D9WFTP2MxWPjMdfqH2lQ8Jx9_; _s_tentry=passport.weibo.com; Apache=9034410052178.598.1722586067660; SINAGLOBAL=9034410052178.598.1722586067660; ULV=1722586067671:1:1:1:9034410052178.598.1722586067660:','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
}response = requests.get(url, headers=headers)# 使用 parsel.Selector 类将响应文本传递给 Selector 对象
# Selector 对象能够解析和处理 HTML 或 XML 文本
selector = parsel.Selector(response.text)# 选择 <div id='pl_top_realtimehot'> 中的 tbody 中的 tr
trs = selector.css('#pl_top_realtimehot tbody tr')# 定义排序
num = 1for tr in trs:# .get() 方法从 SelectorList 中提取第一个匹配项的内容。如果没有匹配项,它将返回 None# 获取热搜标题title = tr.css('.td-02 a::text').get()# 获取热搜热度hot = tr.css('.td-02 span::text').get()# 创建字典保存数据dic = {'排名': num,'标题': title,'热度': hot,}print(dic)# writerow 写入数据csv_writer.writerow(dic)num += 1
项目效果
相关文章:
Python 爬虫项目实战(二):爬取微博热搜榜
前言 网络爬虫(Web Crawler),也称为网页蜘蛛(Web Spider)或网页机器人(Web Bot),是一种按照既定规则自动浏览网络并提取信息的程序。爬虫的主要用途包括数据采集、网络索引、内容抓…...
文件解析漏洞复现
一、IIS 6.X 1.在网站目录创建文件夹名为xxx.asp/xxx.asa 文件夹,里面的任意文件都会被当作asp文件执行 创建1.asp 访问 2.ooo.asp.jpg会被当做asp文件执行 创建一个ooo.asp;.jpg 访问 二、IIS 7.X 上传1.jpg文件在网址后/.php可以成功执行 写一个1.jpg文件内容…...
git push报错 pre-receive hook declined
今天使用git提交的代码的时候,不然报错 pre-receive hook declined提交不上去,昨天还好好的。 经过检查发现,原来对应的分支被leader设置成受保护分支了,导致代码提交不上去。 然后在git管理平台取消分支保护,或者将我…...
打造个性化代码审查工具:在Perl中实现自定义审查的艺术
打造个性化代码审查工具:在Perl中实现自定义审查的艺术 代码审查是软件开发过程中的关键环节,它有助于提高代码质量和发现潜在缺陷。Perl作为一种灵活的编程语言,提供了丰富的特性,使得在Perl中实现自定义的代码审查工具成为可能…...
RabbitMq架构原理剖析及应用
文章目录 RabbitMQ 架构组件1. **Broker** (Broker Server)2. **Exchange**3. **Queue**4. **Producer** (消息生产者)5. **Consumer** (消息消费者)6. **Virtual Hosts** (虚拟主机) 工作流程内部原理1. **队列管理**2. **集群**3. **持久化与内存**4. **性能优化** 高级特性1…...
c# 对接第三方接口实现签名
官网文档要求如下: Sign算法说明 举例:假设请求参数键值对如下 appkey : test2-xx page_no : 0 end_time : 2016-08-01 13:00:00 start_time : 2016-08-01 12:00:00 page_size : 40 sid : test2 timestamp : 1470042310 第一步 对数所有请求参数按照…...
数学建模评价类模型—层次分析法(无数据情况下)
目录 前言 一、评价类问题概述 二、AHP建模流程 1、过程描述 2、层次分析法—Matlab代码 三、权重计算 1、算术平均法 2、几何平均法 3、特征值法 目录 文章目录 前言 一、评价类问题概述 二、AHP建模流程 1、过程描述 2、层次分析法—Matlab代码 三、权重计算 算术平均法 前言…...
模拟实现strcat(字符串追加)
1.我们要知道stcat的作用是什么,字符串追加。 2.我们进行模仿,我们先将arr1不断,直到“\0”,我们加在后面。 //模拟实现strcat(字符串追加) char* my_strcat(char* arr1, const char* arr2) {assert(arr1 && arr2);char ret arr1;…...
HTTP简单概述
一. HTTP HTTP(HyperText Transfer Protocol)是用于在客户端和服务器之间传输超文本数据(如HTML)的应用层协议。它是万维网的基础协议,定义了浏览器和服务器之间如何请求和传输文档。HTTP有多个版本,每个版…...
掌握PyCharm代码片段管理器:提升编码效率的秘诀
掌握PyCharm代码片段管理器:提升编码效率的秘诀 PyCharm作为业界领先的集成开发环境(IDE),提供了许多便利的功能来提升开发者的编码效率,其中之一就是代码片段管理器。代码片段管理器允许开发者保存、管理和重用代码模…...
MyBatis动态代理和映射器
目录 1、映射器简介 (1)什么是mapper动态代理? (2)动态代理的规范 (3)如何使用动态代理 (4)为什么学映射器 (5)映射器与接口 (…...
ShardingSphere中的ShardingJDBC常见分片算法的实现
文章目录 ShardingJDBC快速入门修改雪花算法和分表策略核心概念分片算法简单INLINE分片算法STANDARD标准分片算法COMPLEX_INLINE复杂分片算法CLASS_BASED自定义分片算法HINT_INLINE强制分片算法 注意事项 ShardingJDBC Git地址 快速入门 现在我存在两个数据库,并…...
SpringBoot整合Flink CDC实时同步postgresql变更数据,基于WAL日志
SpringBoot整合Flink CDC实时同步postgresql变更数据,基于WAL日志 一、前言二、技术介绍(Flink CDC)1、Flink CDC2、Postgres CDC 三、准备工作四、代码示例五、总结 一、前言 在工作中经常会遇到要实时获取数据库(postgresql、m…...
ThinkPHP事件的使用
技术说明 1.ThinkPHP版本:支持6.0、8.0 2.使用场景:用户登陆后日志记录、通知消息发送等主流程、次流程分离等场景 3.说明:网上很多帖子说的不明不白的,建议大家自己手动尝试总结一下 4.事件手动绑定的时候,一定要…...
【Nuxt】服务端渲染 SSR
SSR 概述 服务器端渲染全称是:Server Side Render,在服务器端渲染页面,并将渲染好HTML返回给浏览器呈现。 SSR应用的页面是在服务端渲染的,用户每请求一个SSR页面都会先在服务端进行渲染,然后将渲染好的页面…...
Spring Boot整合WebSocket
说明:本文介绍如何在Spirng Boot中整合WebSocket,WebSocket介绍,参考下面这篇文章: WebSocket 原始方式 原始方式,指的是使用Spring Boot自己整合的方式,导入的是下面这个依赖 <dependency><g…...
《LeetCode热题100》---<5.③普通数组篇五道>
本篇博客讲解LeetCode热题100道普通数组篇中的五道题 第五道:缺失的第一个正数(困难) 第五道:缺失的第一个正数(困难) 方法一:将数组视为哈希表 class Solution {public int firstMissingPosi…...
Cocos Creator文档学习记录
Cocos Creator文档学习记录 一、什么是Cocos Creator 官方文档链接:Hello World | Cocos Creator 百度百科:Cocos Creator_百度百科 Cocos Creator包括开发和调试、商业化 SDK 的集成、多平台发布、测试、上线这一整套工作流程,可多次的迭…...
插入数据优化 ---大批量数据插入建议使用load
一.insert优化 1.批量插入 2.手动提交事务 3.主键顺序插入 二.大批量插入数据 如果一次性需要插入大批量数据,使用insert语句插入性能较低,此时可以使用MySQL数据库提供的load指令进行插入。操作如下 1.客户端连接服务端时,加入参数 --local-infine mysql --local-infine…...
【Linux】一篇总结!什么是重定向?输出重定向的作用是什么?什么又是追加重定向?
欢迎来到 CILMY23 的博客 🏆本篇主题为:一篇总结!什么是重定向?输出重定向的作用是什么?什么又是追加重定向? 🏆个人主页:CILMY23-CSDN博客 🏆系列专栏:Py…...
svn软件总成全内容
SVN软件总成 概述:本文为经验型文档 目录 D:\安装包\svn软件总成 的目录D:\安装包\svn软件总成\svn-base添加 的目录D:\安装包\svn软件总成\tools 的目录D:\安装包\svn软件总成\tools\sqlite-tools-win32-x86-3360000 的目录D:\安装包\svn软件总成\安装包-----bt lo…...
[激光原理与应用-118]:电源系统的接地详解:小信号的噪声干扰优化,从良好外壳接地开始
目录 一、电路的基本原理:电流回路 1、电流回路的基本概念 2、电流回路的特性 3、电流回路的类型 4、电流回路的应用 五、电流回路的注意事项 二、交流设备的接地 1.1 概述 1、交流工作接地的定义 2、交流工作接地的作用 3、交流工作接地的规范要求 4、…...
回测本身就是一种过度拟合?
这也许是一个絮絮叨叨的专题,跟大伙儿唠一唠量化相关的小问题,有感而发写到哪算哪,这是第一期,先唠个10块钱的~ 前段时间在某乎上看到这样一个问题『您怎么理解回测本身就是一种过度拟合?』 个人看来,回测本…...
什么是Arduino?
Arduino是一款便捷灵活、方便上手的开源电子原型平台,由欧洲的一个开发团队于2005年冬季开发。以下是关于Arduino的详细介绍: 一、基本概述 定义:Arduino是一个基于开放源代码的软硬件平台,它让电子设计更加简单快捷。通过Arduin…...
【机器学习基础】Scikit-learn主要用法
【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈Python机器学习 ⌋ ⌋ ⌋ 机器学习是一门人工智能的分支学科,通过算法和模型让计算机从数据中学习,进行模型训练和优化,做出预测、分类和决策支持。Python成为机器学习的首选语言,…...
python-素数回文数的个数(赛氪OJ)
[题目描述] 求 11 到 n 之间(包括 n),既是素数又是回文数的整数有多少个。输入: 一个大于 11 小于 10000 的整数 n。输出: 11 到 n 之间的素数回文数个数。样例输入1 23 样例输出1 1 提示: 回文数指左右对…...
OCC 网格化(二)-网格划分算法
目录 一、概述 二、详解 1. 线性偏转 (Linear Deflection) 2. 角偏转 (Angular Deflection) 三、示例 3.1 示例1 3.2 示例2 一、概述 在 Open CASCADE Technology (OCC) 中默认的网格划分算法BRepMesh_IncrementalMesh有两个主要的选项来定义三角剖分—线性和角偏转。 …...
pyecharts模块
PyEcharts 一个基于ECharts库的Python封装库,它使得开发者可以方便地在Python环境中创建交互式的图表,包括折线图、柱状图、饼图、地图等多种可视化效果。 优点: 易用性:PyEcharts提供了简单易懂的API,通过链式调用…...
深⼊理解指针(3)
1. 字符指针变量 2. 数组指针变量 3. ⼆维数组传参的本质 4. 函数指针变量 5. 函数指针数组 6. 转移表 1. 字符指针变量 在指针的类型中我们知道有⼀种指针类型为字符指针 ⼀般使⽤: char* 这两种方式都是把字符串中的首字符的地址赋值给pc。 在这串代码中 str1内容的地…...
黑马头条vue2.0项目实战(四)——首页—文章列表
目录 1. 头部导航栏 1.1 页面布局 1.2 样式调整中遇到的问题 2. 频道列表 2.1 页面布局 2.2 样式调整 2.3 展示频道列表 3. 文章列表 3.1 思路分析 3.2 使用 List 列表组件 3.3 加载文章列表数据 3.4 下拉刷新 3.5 设置上下padding固定头部和频道列表 3.6 记住列…...
女朋友做网站/关键词收录
出人意料,去年哈佛最受欢迎的选修课是“幸福课”,听课人数超过了王牌课《经济学导论》。教这门课的是一位名不见经传的年轻讲师,名叫泰勒本-沙哈尔。 在一周两次的“幸福课”上,本-沙哈尔没有大讲…...
东营住房和城乡建设信息网/优化营商环境工作开展情况汇报
http://acm.hdu.edu.cn/showproblem.php?pid2087 一块花布条,里面有些图案,另有一块直接可用的小饰条,里面也有一些图案。对于给定的花布条和小饰条,计算一下能从花布条中尽可能剪出几块小饰条来呢? Input 输入中含…...
网络诚信 网站应怎么做/百度seo 优化
今天要和大家分享的是 Windows Complete PC Backup 使用方面的经验与体会。之所以引出这个主题,是因为前段时间为笔记本升级了硬盘,并在本博上进行了“炫耀”,没想到影响到了 Yinjie 达人,他也经不住诱惑升级到了320G。由于我一直…...
用几个域名做网站好/seo网络推广知识
在接触if else 语句之前, 我们的代码都是顺序执行的,从第一条语句,到第二条,第三条...从上往下一直到最后一条语句。但是往往事情并不总那么顺利,经常会出现这样那样的情况。比如我们经常看的恐怖片,会提示…...
做外贸哪个网站比较好2017/哪些行业适合做seo
最近遇到一个面试题。给定一个数字n,输出一个n阶矩阵。矩阵中的元素为1到n。按回形排列eg1 :输入:n2输出:1 24 3eg2:输入:n3输出:1 2 38 9 47 6 5思路:这个题属于现实中遇到很简单,但是程序实现还是有些难度…...
常州网站快速排名优化/媒体:北京不再公布疫情数据
windows的.lib跟Unix的.a一样,属于中间级。 .o跟Windows的对象一样,是编译后的文件,需要连接起来(LINK),之后才是可执行文件。 clean:一般是make clean ,删除中间的目标文件,.o之类。可以叫别的…...