当前位置：首页 > news >正文

Python实现招聘数据采集，并做可视化分析

news 2026/2/7 22:08:11

转眼秋招快到了，今天来学习一下如何用Python采集全网招聘数据，并进行可视化分析，为就业准备~

话不多说开始造

源码和详细的视频讲解我都打包好了，文末名片自取

准备工作

首先你需要准备这些

环境

Python 3.10
Pycharm

模块
DrissionPage -> pip install DrissionPage
csv

新建一个临时 py 文件，并输入以下代码，填入您电脑里的 Chrome 浏览器可执行文件路径，然后运行。

from DrissionPage import ChromiumOptionspath = r'D:\Chrome\Chrome.exe' # 请改为你电脑内Chrome可执行文件路径
ChromiumOptions().set_browser_path(path).save()

爬虫实现的基本流程

一、数据来源分析

1.明确需求

明确采集的网站以及数据内容

网址: https://****/web/geek/job?query=python&city=100010000
数据: 职位信息

2.抓包分析

通过浏览器开发者工具分析对应的数据位置

打开开发者工具
- F12 / 右键点击检查选择 network (网络)
刷新网页
通过关键字搜索找到对应的数据位置
- 关键字: 需要什么数据就搜什么数据

数据包地址:
https://***/wapi/zpgeek/search/joblist.json?scene=1&query=pyth
on&city=100010000&experience=&payType=&partTime=°ree=&industry=&scale=&stage=&p
osition=&jobType=&salary=&multiBusinessDistrict=&multiSubway=&page=1&pageSize=30

二、代码实现步骤

requests基本实现步骤基本步骤分为四步:

1.发送请求: 模拟浏览器对于url地址发送请求
2.获取数据: 获取服务器返回响应数据
3.解析数据: 提取我们需要的数据内容
4.保存数据: 提取的数据保存表格/文本/数据库/json文件中

为什么不选择使用requests去请求获取数据呢?

某些网站数据内容(请求), 存在加密内容->需要JS逆向
比如: 今晚案例boss -> cookie 中 zp_stoken 时效性

drissionpage 自动化模块

模拟人的行为操作浏览器

点击输入拖拽获取数据

1.可以直接通过元素面板, 进行元素定位获取相关数据内容

2.可以直接监听数据, 获取响应数据
监听数据->在执行动作之前

注意细节:

a.需要配置浏览器可执行文件路径
b.通过抓包分析找到的数据包链接地址进行的监听, 并且监听数据->在执行动作之前

3.解析数据: 提取我们需要的数据内容
4.保存数据: 提取的数据保存表格/文本/数据库/json文件中

点击下一页按钮:

1.定位按钮元素
2.进行相关操作

dp.ele(‘css:.ui-icon-arrow-right’).click()
-dp.ele() 通过元素定位
-css:.ui-icon-arrow-right 使用css语法查找元素
-click() 点击操作

数据可视化

简单使用可视化

# 导入数据处理模块
import pandas as pd
# 导入配置项
from pyecharts import options as opts
# 导入图形
from pyecharts.charts import Pie, Bar, Line
# 导入数据(随机生成数据)
from pyecharts.faker import Faker# 读取csv文件
df = pd.read_csv('data.csv')
# print(df.head())
# 获取x轴数据内容
x_city = df['城市'].value_counts().index.to_list()
# 获取y轴数据内容
y_city = df['城市'].value_counts().to_list()c = (Pie().add("",[list(z)for z in zip(x_city, # x轴数据y_city, # y轴数据)],center=["40%", "50%"],).set_global_opts(# 设置可视化标题title_opts=opts.TitleOpts(title="Python招聘城市分布情况"),legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))# 导出可视化效果: 保存html文件.render("pie_Python招聘城市分布情况.html")
)
# 获取x轴数据内容
x_edu = df['学历'].value_counts().index.to_list()
# 获取y轴数据内容
y_edu = df['学历'].value_counts().to_list()
c_bar = (Bar().add_xaxis(x_edu).add_yaxis("学历", y_edu, stack="stack1").set_series_opts(label_opts=opts.LabelOpts(is_show=False)).set_global_opts(title_opts=opts.TitleOpts(title="Bar-Python招聘学历要求分布情况")).render("bar_Python招聘学历要求分布情况.html")
)# 获取x轴数据内容
x_exp = df['经验'].value_counts().index.to_list()
# 获取y轴数据内容
y_exp = df['经验'].value_counts().to_list()
c_Line = (Line().add_xaxis(x_exp).add_yaxis("经验", y_exp, is_connect_nones=True).set_global_opts(title_opts=opts.TitleOpts(title="Line-Python招聘经验要求分布")).render("line_Python招聘经验要求分布.html")
)

效果展示

Python实现招聘数据采集，并做可视化分析

转眼秋招快到了， 今天来学习一下如何用Python采集全网招聘数据，并进行可视化分析，为就业准备~ 话不多说开始造源码和详细的视频讲解我都打包好了，文末名片自取准备工作首先你需要准备这些环境 Python 3.10 Pycharm 模块…...

编程日记 2024/7/23 5:48:01

ES中的数据类型学习之Aggregate metric(聚合计算)

Aggregate metric field type | Elasticsearch Guide [7.17] | Elastic 对于object类型的字段来说，可以存子字段为 min/max/sum/value_count PUT my-index {"mappings": {"properties": {"my-agg-metric-field": { -- 字段名"ty…...

编程日记 2024/7/23 5:45:59

看准JS逆向案例：webpack逆向解析

🔍 逆向思路与步骤抓包分析与参数定位首先，我们通过抓包工具对看准网的请求进行分析。发现请求中包含加密的参数b和kiv。为了分析这些加密参数，我们需要进一步定位JS加密代码的位置。扣取JS加密代码定位到JS代码中的加密实现后&a…...

编程日记 2024/7/23 5:44:56

【C语言】利用栈完成十进制转二进制（分文件编译，堆区申请空间malloc）

利用栈先进后出的特性，在函数内部，进行除二取余的操作，把每次的余数存入栈内，最后输出刚好就是逆序输出，为二进制数学习过程中，对存储栈进行堆区的内存申请时候，并不是很熟练，一开始…...

编程日记 2024/7/23 5:43:55

如何解决ChromeDriver 126找不到chromedriver.exe问题

引言在使用Selenium和ChromeDriver进行网页自动化时，ChromeDriver与Chrome浏览器版本不匹配的问题时有发生。最近，许多开发者在使用ChromeDriver 126时遇到了无法找到chromedriver.exe文件的错误。本文将介绍该问题的原因，并提供详细的解决…...

编程日记 2024/7/23 5:42:54

Anaconda下安装配置Jupyter 1、安装 conda activate my_env #激活虚拟环境 pip install jupyter #安装 jupyter notebook --generate-config #生成配置文件提示配置文件的位置： Writing default config to: /root/.jupyter/jupyter_notebook_config.py检查版本&am…...

编程日记 2024/7/23 5:41:53

蓝队黑名单IP解封提取脚本

应用场景：公司给蓝队人员一个解封IP列表，假如某个IP满足属于某某C段，则对该IP进行解封。该脚本则是进行批量筛选出符合条件的白名单IP 实操如下：公司给了一个已经封禁了的黑名单IP列表如下（black） 公司要求…...

编程日记 2024/7/23 5:40:52

共享充电桩语音ic方案，展现它的“说话”的能力

随着电动汽车的普及，充电设施的便捷性、智能化需求日益凸显，共享充电桩语音IC应运而生，成为连接人与机器、实现智能交互的桥梁。本文将为大家介绍共享充电桩语音ic的概述、应用词条以及优势，希望能够帮助您。一、NV170D语音ic概述…...

编程日记 2024/7/23 5:39:51

ARM 单片机裸机任务调度框架

前言： 在没有使用操作系统的情况下，一个合理的裸机任务调度方式，可以更好的提供数据的处理，和用户体验，有多种任务调度的方式。方案 1： 从上到下的任务调度方式，C语言程序的代码是在main函数…...

编程日记 2024/7/23 5:38:50

.Net 8 控制台程序部署(Linux篇)

在无流量Linux环境下部署.NET8开发的控制台程序写在前面准备远程访问安装环境程序部署1.下载并导入2.解压并配置3.发布程序4.创建Systemd服务单元文件5.启用并启动服务写在结尾写在前面好久没更新文章了，今天给大家带来的是在在无流量的Linux工控机上部署.Net8…...

编程日记 2024/7/23 5:37:49

LeetCode：x的平方根（C语言）

1、问题概述：给你一个非负整数 x，计算并返回 x 的算术平方根 ，返回类型得是一个整数，小数舍弃 2、示例示例 1： 输入：x 4 输出：2 示例 2： 输入：x 8 输出：…...

编程日记 2024/7/23 5:36:48

深入浅出WebRTC—DelayBasedBwe

WebRTC 中的带宽估计是其拥塞控制机制的核心组成部分，基于延迟的带宽估计是其中的一种策略，它主要基于延迟变化推断出可用的网络带宽。 1. 总体架构 1.1. 静态结构 1）DelayBasedBwe 受 GoogCcNetworkController 控制，接收其输入…...

编程日记 2024/7/23 5:35:47

JAVA开发工具IDEA如何连接操作数据库

一、下载驱动下载地址：【免费】mysql-connector-j-8.2.0.jar资源-CSDN文库二、导入驱动鼠标右击下载到IDEA中的jar包，选择Add as Library选项如图就导入成功三、加载驱动 Class.forName("com.mysql.cj.jdbc.Driver"); 四、驱动管理…...

编程日记 2024/7/23 5:33:45

简化AI模型：PyTorch量化技术在边缘计算中的应用

引言在资源受限的设备上部署深度学习模型时，模型量化技术可以显著提高模型的部署效率。通过将模型的权重和激活从32位浮点数转换为更低位数的值，量化可以减少模型的大小，加快推理速度，同时降低能耗。模型量化概述定义与优势…...

编程日记 2024/7/23 5:32:44

拥抱AI时代：解锁Prompt技术的无限潜力与深远影响

拥抱AI时代：解锁Prompt技术的无限潜力与深远影响引言在人工智能的浩瀚星空中，自然语言处理（NLP）无疑是最耀眼的星辰之一。随着技术的不断演进，NLP已经从最初的简单问答系统发展成为能够生成复杂文本、理解人类情感与…...

编程日记 2024/7/23 5:31:44

第123天：内网安全-域防火墙入站出站规则不出网隧道上线组策略对象同步

目录案例一： 单机-防火墙-限制端口\协议出入站案例二：不出网的解决思路入站连接隧道技术案例三：域控-防火墙-组策略对象同步案例四：域控-防火墙-组策略不出网上线 msf cs 案例一： 单机-防火墙-限制端口\…...

编程日记 2024/7/23 5:30:41

博客建站4 - ssh远程连接服务器

1. 什么是SSH?2. 下载shh客户端3. 配置ssh密钥4. 连接服务器5. 常见问题 5.1. IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY! 1. 什么是SSH? SSH（Secure Shell）是一种加密的网络协议，用于在不安全的网络中安全地远程登录到其他…...

编程日记 2024/7/23 5:29:40

MySQL--索引(3)

1.索引创建注意点选择合适的字段 1.不为 NULL 的字段索引字段的数据应该尽量不为 NULL，因为对于数据为 NULL 的字段，数据库较难优化。如果字段频繁被查询，但又避免不了为 NULL，建议使用 0,1,true,false 这样语义较为清晰的短值或…...

编程日记 2024/7/23 5:28:39

sql_exporter通过sql收集业务数据并通过prometheus+grafana展示

下载并解压安装sql_exporter wget https://github.com/free/sql_exporter/releases/download/0.5/sql_exporter-0.5.linux-amd64.tar.gz #解压 tar xvf sql_exporter-0.5.linux-amd64.tar.gz -C /usr/local/修改主配置文件 cd /usr/local/ mv sql_exporter-0.5.linux-amd64 s…...

编程日记 2024/7/23 5:27:38

pytorch 笔记：torch.optim.Adam

torch.optim.Adam 是一个实现 Adam 优化算法的类。Adam 是一个常用的梯度下降优化方法，特别适合处理大规模数据集和参数的深度学习模型 torch.optim.Adam(params, lr0.001, betas(0.9, 0.999), eps1e-08, weight_decay0, amsgradFalse, *, foreachNone, maximizeFa…...

编程日记 2024/7/23 5:26:37

【OSG学习笔记】Day 18: 碰撞检测与物理交互

物理引擎（Physics Engine） 物理引擎是一种通过计算机模拟物理规律（如力学、碰撞、重力、流体动力学等）的软件工具或库。它的核心目标是在虚拟环境中逼真地模拟物体的运动和交互，广泛应用于游戏开发、动画制作、虚…...

编程新知 2026/2/4 2:08:30

React hook之useRef

React useRef 详解 useRef 是 React 提供的一个 Hook，用于在函数组件中创建可变的引用对象。它在 React 开发中有多种重要用途，下面我将全面详细地介绍它的特性和用法。基本概念 1. 创建 ref const refContainer useRef(initialValue);initialValu…...

编程新知 2025/6/11 15:21:26

高频面试之3Zookeeper

高频面试之3Zookeeper 文章目录高频面试之3Zookeeper3.1 常用命令3.2 选举机制3.3 Zookeeper符合法则中哪两个？3.4 Zookeeper脑裂3.5 Zookeeper用来干嘛了 3.1 常用命令 ls、get、create、delete、deleteall3.2 选举机制半数机制（过半机制&#xff0…...

编程新知 2026/1/25 13:13:20

测试markdown--肇兴

day1： 1、去程：7:04 --11:32高铁高铁右转上售票大厅2楼，穿过候车厅下一楼，上大巴车 ￥10/人 **2、到达：**12点多到达寨子，买门票，美团/抖音：￥78人 3、中饭&a…...

编程新知 2025/12/14 11:45:02

Ascend NPU上适配Step-Audio模型

1 概述 1.1 简述 Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤）&#x…...

编程新知 2026/1/31 4:37:39

华为云Flexus+DeepSeek征文｜DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建

华为云FlexusDeepSeek征文｜DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建前言如今大模型其性能出色，华为云 ModelArts Studio_MaaS大模型即服务平台华为云内置了大模型，能助力我们轻松驾驭 DeepSeek-V3/R1，本文中将分享如何…...

编程新知 2026/2/2 2:30:58

Rapidio门铃消息FIFO溢出机制

关于RapidIO门铃消息FIFO的溢出机制及其与中断抖动的关系，以下是深入解析： 门铃FIFO溢出的本质在RapidIO系统中，门铃消息FIFO是硬件控制器内部的缓冲区，用于临时存储接收到的门铃消息（Doorbell Message）。…...

编程新知 2026/1/7 1:29:19

适应性Java用于现代 API：REST、GraphQL 和事件驱动

在快速发展的软件开发领域，REST、GraphQL 和事件驱动架构等新的 API 标准对于构建可扩展、高效的系统至关重要。Java 在现代 API 方面以其在企业应用中的稳定性而闻名，不断适应这些现代范式的需求。随着不断发展的生态系统，Java 在现代 API 方…...

编程新知 2025/11/10 19:07:59

Linux 下 DMA 内存映射浅析

序系统 I/O 设备驱动程序通常调用其特定子系统的接口为 DMA 分配内存，但最终会调到 DMA 子系统的dma_alloc_coherent()/dma_alloc_attrs() 等接口。关于 dma_alloc_coherent 接口详细的代码讲解、调用流程，可以参考这篇文章，我觉得写的非常…...

编程新知 2026/2/7 0:29:10

【Ftrace 专栏】Ftrace 参考博文

ftrace、perf、bcc、bpftrace、ply、simple_perf的使用Ftrace 基本用法Linux 利用 ftrace 分析内核调用如何利用ftrace精确跟踪特定进程调度信息使用 ftrace 进行追踪延迟Linux-培训笔记-ftracehttps://www.kernel.org/doc/html/v4.18/trace/events.htmlhttps://blog.csdn.net/…...

编程新知 2026/1/20 3:30:27