当前位置：首页 > news >正文

爬虫基础之爬取歌曲宝歌曲批量下载

news 2026/2/8 10:49:14

声明：本案列仅供学习交流使用任何用于非法用途均与本作者无关

需求分析:

网站:邓紫棋-mp3在线免费下载-歌曲宝-找歌就用歌曲宝-MP3音乐高品质在线免费下载 (gequbao.com)
爬取歌曲名歌曲实现歌手名称下载所有歌曲

**本案列所使用的模块**
requests (发送HTTP请求)	re(用于正则表达式匹配和处理)
parsel (解析HTML或XML文档)	os (用于与操作系统进行交互，如文件和目录操作)

监听数据包：

打开开发者工具 F12 or 右击点击检查点击网络
点击下一页或者往下滑
Ctrl+F 快捷键打开搜索框输入想要爬取的数据

分析:
通过此界面拿到所有歌曲的内页
然后点进去分析详情页的数据

点击播放按钮监听数据包复制下图的URL 地址到浏览器中打开

发现就会下载这个音乐文件
接着点击下载歌曲里面的下载高品质MP3

找到这个请求的数据包后续发送请求通过正则可以将下载链接提取出来

好的分析完毕我们开始写代码

老样子右击复制 cURL(bash) 打开我们的爬虫工具
爬虫工具库-spidertools.cn

复制代码到本地Py文件
以下是实现一首歌曲的采集
发现是根据每首歌的id 来下载的歌曲因此我们需要拿到所有下载歌曲的id
在每首歌曲的详情页

# 导包
import re
import requestsheaders = {"accept": "application/json, text/javascript, */*; q=0.01","accept-language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6","content-type": "application/x-www-form-urlencoded; charset=UTF-8","origin": "https://www.gequbao.com","priority": "u=1, i","referer": "https://www.gequbao.com/music/9653","sec-ch-ua": "\"Chromium\";v=\"128\", \"Not;A=Brand\";v=\"24\", \"Microsoft Edge\";v=\"128\"","sec-ch-ua-mobile": "?0","sec-ch-ua-platform": "\"Windows\"","sec-fetch-dest": "empty","sec-fetch-mode": "cors","sec-fetch-site": "same-origin","user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36 Edg/128.0.0.0","x-requested-with": "XMLHttpRequest"
}
cookies = {"Hm_lvt_c2b69091f94cb4368f25c28fc7c2d28c": "1736209777,1736210463","HMACCOUNT": "0EB52C16E9A34AE0","Hm_lpvt_c2b69091f94cb4368f25c28fc7c2d28c": "1736210603"
}
url = "https://www.gequbao.com/api/play-url"
data = {"id": "SF9bVDxXUl1RQ1heUHJe"
}
response = requests.post(url, headers=headers, cookies=cookies, data=data)
# 通过re正则提取 下载的url地址
down_url = ''.join(re.findall(r'"url":"(.*?)"',response.text)[0]).replace('\\','')
# 保存数据 歌曲 图片 视频  保存均为二进制的格式
content = requests.get(url=down_url, headers=headers, cookies=cookies, data=data).content
# 以二进制的形式 进行写入保存
with open('1.mp3','wb') as f:f.write(content)

接着我们拿到所有歌曲的内页链接里面包含歌曲的id

# 发送请求
first_url = 'https://www.gequbao.com/s/%E9%82%93%E7%B4%AB%E6%A3%8B'
# 后面的参数 其实就是邓紫棋
result= requests.get(url=first_url,headers=headers,cookies=cookies,data=data)
print(result.text)

从返回的数据中搜索是否存在我们想要的数据

提取数据打开元素面板查看元素所在的位置

select = parsel.Selector(result.text)
lis = select.css('.row .col-8.col-content')
for li in lis:in_id = li.css('a::attr(href)').get().split('/')[-1]

接着我们构造URL 对详情页发送请求

url = f'https://www.gequbao.com/music/{in_id}'

从返回的数据中通过正则提取我们想要的数据 id

    resp = requests.get(url, headers=headers)# print(resp.text)# 歌曲idplay_id = re.findall(r"window.play_id = '(.*?)';", resp.text)[0]# 歌曲名字play_title = re.findall(r"window.mp3_title = '(.*?)';", resp.text)[0]# 歌手play_author = re.findall(r"window.mp3_author = '(.*?)';", resp.text)[0]# 因为正则提取出来的是列表 对列表进行取值

最后还记得开始下载一首歌曲的请求嘛对此发送请求
将我们从每首歌的详情页获取到的play_id 传进去
完整的代码如下

import requests
import re
import parsel
import osinp = input('请输入要采集的歌手:')
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36 Edg/130.0.0.0'
}first_url = f'https://www.gequbao.com/s/{inp}'
# .row   .col-8.col-content a
result = requests.get(url=first_url,headers=headers)
select = parsel.Selector(result.text)
lis = select.css('.row .col-8.col-content')
for li in lis:in_id = li.css('a::attr(href)').get().split('/')[-1]# print(in_id)# 以上代码拿到id# 构建详情页链接url = f'https://www.gequbao.com/music/{in_id}'resp = requests.get(url, headers=headers)# print(resp.text)play_id = re.findall(r"window.play_id = '(.*?)';", resp.text)[0]play_title = re.findall(r"window.mp3_title = '(.*?)';", resp.text)[0]play_author = re.findall(r"window.mp3_author = '(.*?)';", resp.text)[0]# print(play_id,play_title,play_author)# 下载歌曲的链接 需要传入每个歌曲的idlink = 'https://www.gequbao.com/api/play-url'data = {'id': play_id}response = requests.post(url=link, data=data, headers=headers)json_data = response.json()# 获取json数据# 提取下载链接play_url = json_data['data']['url']

最后我们根据不同歌手来保存数据
需要导入os 模块

    # 获取二进制数据 content = requests.get(play_url, headers=headers).content# 定义文件目录filed_name=f'music\\{play_author}\\'# 自动创建 文件夹if not os.path.exists(filed_name):os.makedirs(filed_name)    # 以二进制的数据写入保存with open(f'{filed_name}' + play_author + play_title + '.mp3', 'wb') as f:f.write(content)print(f'正在采集{play_author}{play_title}歌曲')

以下是本次案例的所有代码仅供学习参考使用

import requests
import re
import parsel
import osinp = input('请输入要采集的歌手:')
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36 Edg/130.0.0.0'
}first_url = f'https://www.gequbao.com/s/{inp}'
# .row   .col-8.col-content a
result = requests.get(url=first_url,headers=headers)
select = parsel.Selector(result.text)
lis = select.css('.row .col-8.col-content')
for li in lis:in_id = li.css('a::attr(href)').get().split('/')[-1]# print(in_id)# 以上代码拿到idurl = f'https://www.gequbao.com/music/{in_id}'resp = requests.get(url, headers=headers)# print(resp.text)play_id = re.findall(r"window.play_id = '(.*?)';", resp.text)[0]play_title = re.findall(r"window.mp3_title = '(.*?)';", resp.text)[0]play_author = re.findall(r"window.mp3_author = '(.*?)';", resp.text)[0]# print(play_id,play_title,play_author)link = 'https://www.gequbao.com/api/play-url'data = {'id': play_id}response = requests.post(url=link, data=data, headers=headers)json_data = response.json()play_url = json_data['data']['url']content = requests.get(play_url, headers=headers).contentfiled_name=f'music\\{play_author}\\'if not os.path.exists(filed_name):os.makedirs(filed_name)with open(f'{filed_name}' + play_author + play_title + '.mp3', 'wb') as f:f.write(content)print(f'正在采集{play_author}{play_title}歌曲')

运行代码

本次的案例分享就到此结束啦感谢大家的观看您的点赞和关注是我更新的动力

爬虫基础之爬取歌曲宝歌曲批量下载

声明：本案列仅供学习交流使用任何用于非法用途均与本作者无关需求分析: 网站:邓紫棋-mp3在线免费下载-歌曲宝-找歌就用歌曲宝-MP3音乐高品质在线免费下载 (gequbao.com) 爬取歌曲名歌曲实现歌手名称下载所有歌曲本案列所使用的模块 requests (发送…...

编程日记 2025/1/13 21:15:12

GitLab CI/CD使用runner实现自动化部署前端Vue2 后端.Net 7 Zr.Admin项目

1、查看gitlab版本建议安装的runner版本和gitlab保持一致 2、查找runner 执行 yum list gitlab-runner --showduplicates | sort -r 找到符合gitlab版本的runner，我这里选择 14.9.1版本如果执行出现找不到下载源，添加官方仓库执行 curl -L &quo…...

编程日记 2025/1/13 21:14:10

web前端第五次作业---制作菜单

制作菜单代码: <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><style…...

编程日记 2025/1/13 21:12:02

软件系统安全逆向分析-混淆对抗

1. 概述在一般的软件中，我们逆向分析时候通常都不能直接看到软件的明文源代码，或多或少存在着混淆对抗的操作。下面，我会实践操作一个例子从无从下手到攻破目标。花指令对抗虚函数表RC4 2. 实战-donntyousee 题目载体为具有漏洞的小型软…...

编程日记 2025/1/13 21:08:57

HAMi + prometheus-k8s + grafana实现vgpu虚拟化监控

最近长沙跑了半个多月，跟甲方客户对了下项目指标，许久没更新回来后继续研究如何实现 grafana实现HAMi vgpu虚拟化监控，毕竟合同里写了需要体现gpu资源限制和算力共享以及体现算力卡资源共享监控先说下为啥要用HAMi吧， 一个重要原…...

编程日记 2025/1/13 21:05:54

Java基于SSM框架的在线视频教育系统小程序【附源码、文档】

博主介绍：✌IT徐师兄、7年大厂程序员经历。全网粉丝15W、csdn博客专家、掘金/华为云//InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇&#x1f3…...

编程日记 2025/1/13 21:01:47

mysql本地安装和pycharm链接数据库操作

MySQL本地安装和相关操作 Python相关：基础、函数、数据类型、面向、模块。前端开发：HTML、CSS、JavaScript、jQuery。【静态页面】 Java前端； Python前端； Go前端 -> 【动态页面】直观： 静态，写死了…...

编程日记 2025/1/13 20:52:35

Unity编程与游戏开发-编程与游戏开发的关系

游戏开发是一个复杂的多领域合作过程，涵盖了从创意构思到最终实现的多个方面。在这个过程中，技术、设计与美术三大核心要素相互交织，缺一不可。在游戏开发的过程中，Unity作为一款强大的跨平台游戏引擎，凭借其高效的开发工具和庞大的社区支持，成为了很多游戏开发者的首选工…...

编程日记 2025/1/13 20:50:30

2025年第三届“华数杯”国际赛A题解题思路与代码（Python版）

游泳竞技策略优化模型代码详解第一题：速度优化模型在这一部分，我们将详细解析如何通过数学建模来优化游泳运动员在不同距离比赛中的速度分配策略。 1. 模型概述我们的模型主要包含三个核心文件： speed_optimization.py: 速度优化的核…...

编程日记 2025/1/13 20:48:27

针对服务器磁盘爆满,MySql数据库始终无法启动,怎么解决

（点击即可进入聊天助手） 很多站长在运营网站的过程当中都会遇到一个问题,就是网站突然无法打开,数据一直无法启动无论是强制重启还是,删除网站内的所有应用,数据库一直无法启动这个时候,就需要常见的运维手段了,需要对服务器后台各个资源,进行逐一排查…...

编程日记 2025/1/13 20:47:26

在前面的讨论中，我们说到，如果在客户端懒得使用aidl文件生成的接口类进行binder，可以使用IBinder的transcat方法 Parcel dataParcel = Parcel.obtain(); Parcel resultParcel = Parcel.obtain();dataParcel.writeInterfaceToken(DESCRIPTOR);//发起请求 aProxyBinder.trans…...

编程日记 2025/1/13 20:45:24

【芯片封测学习专栏 -- Substrate | RDL Interposer | Si Interposer | 嵌入式硅桥（EMIB）详细介绍】

编程日记 2025/1/13 20:38:18

spring cloud注册nacos并从nacos上拉取配置文件，spring cloud不会自动读取bootstrap.yml文件

目录踩坑问题记录前言版本说明spring cloudb不会自动读取bootstrap.yml文件问题解决spring cloud注册nacos并从nacos上拉取配置文件后话踩坑问题记录 1、spring cloudb不会自动读取bootstrap.yml文件 2、spring cloud注册nacos并从nacos上拉取配置文件前言使用cloud Ali…...

编程日记 2025/1/13 20:37:17

【深度学习地学应用|滑坡制图、变化检测、多目标域适应、感知学习、深度学习】跨域大尺度遥感影像滑坡制图方法：基于原型引导的领域感知渐进表示学习（一）

【深度学习地学应用|滑坡制图、变化检测、多目标域适应、感知学习、深度学习】跨域大尺度遥感影像滑坡制图方法：基于原型引导的领域感知渐进表示学习（一） 【深度学习地学应用|滑坡制图、变化检测、多目标域适应、感知学习、深度学习】跨域大…...

编程日记 2025/1/13 20:32:12

Spring Boot 支持哪些日志框架

Spring Boot 支持多种日志框架，主要包括以下几种： SLF4J (Simple Logging Facade for Java) Logback（默认）Log4j 2Java Util Logging (JUL) 其中，Spring Boot 默认使用 SLF4J 和 Logback 作为日志框架。如果你需要使…...

编程日记 2025/1/13 20:31:11

【翻译】2025年华数杯国际赛数学建模题目+翻译pdf自取

保存至本地网盘链接：https://pan.quark.cn/s/f82a1fa7ed87 提取码：6UUw 2025年“华数杯”国际大学生数学建模竞赛比赛时间于2025年1月11日（周六）06:00开始，至1月15日（周三）09:00结束&#xff…...

编程日记 2025/1/13 20:30:09

qt 窗口（window/widget）绘制/渲染顺序 QPainter QPaintDevice Qpainter渲染失效无效原因

qt窗体布局窗体渲染过程 qt中窗体渲染逻辑顺序为本窗体->子窗体/控件递归，也就是说先渲染父窗体再渲染子窗体。其中子窗体按加入时的先后顺序进行渲染。通过下方的函数调用堆栈可以看出窗体都是在widget组件源码的widgetprivate::drawwidget中进行渲染的&am…...

编程日记 2025/1/13 20:28:08

TIOBE编程语言排行靠前的编程语言的吉祥物

Python的吉祥物：小蟒蛇 Python语言的吉祥物是一只名叫"Pythonidae"（或简称"Py"）的小蟒蛇。这个吉祥物由Tobias Kohn设计于2005年，它的形象借鉴了真实的蟒蛇，但加入了一些可爱和友善的特点。小蟒蛇…...

编程日记 2025/1/13 20:22:02

【前端动效】HTML + CSS 实现打字机效果

目录 1. 效果展示 2. 思路分析 2.1 难点 2.2 实现思路 3. 代码实现 3.1 html部分 3.2 css部分 3.3 完整代码 4. 总结 1. 效果展示如图所示，这次带来的是一个有趣的“擦除”效果，也可以叫做打字机效果，其中一段文本从左到右逐渐从…...

编程日记 2025/1/13 20:09:52

大疆上云API连接遥控器和无人机

文章目录 1、部署大疆上云API关于如何连接我们自己部署的上云API2、开启无人机和遥控器并连接自己部署的上云API如果遥控器和无人机没有对频的情况下即只有遥控器没有无人机的情况下如果遥控器和无人机已经对频好了的情况下 4、订阅无人机或遥控器的主题信息4.1、订阅无人机实时…...

编程日记 2025/1/13 20:01:43

Xshell远程连接Kali（默认 | 私钥）Note版

前言:xshell远程连接，私钥连接和常规默认连接任务一开启ssh服务 service ssh status //查看ssh服务状态 service ssh start //开启ssh服务 update-rc.d ssh enable //开启自启动ssh服务任务二修改配置文件 vi /etc/ssh/ssh_config //第一…...

编程新知 2026/1/28 2:18:42

PHP和Node.js哪个更爽?

先说结论，rust完胜。 php：laravel，swoole，webman，最开始在苏宁的时候写了几年php，当时觉得php真的是世界上最好的语言，因为当初活在舒适圈里，不愿意跳出来，就好比当初活在…...

编程新知 2025/9/14 7:59:52

智慧工地云平台源码，基于微服务架构+Java+Spring Cloud +UniApp +MySql

智慧工地管理云平台系统，智慧工地全套源码，java版智慧工地源码，支持PC端、大屏端、移动端。智慧工地聚焦建筑行业的市场需求，提供“平台网络终端”的整体解决方案，提供劳务管理、视频管理、智能监测、绿色施工、安全管…...

编程新知 2026/1/30 15:16:32

2.Vue编写一个app

1.src中重要的组成 1.1main.ts // 引入createApp用于创建应用 import { createApp } from "vue"; // 引用App根组件 import App from ./App.vue;createApp(App).mount(#app)1.2 App.vue 其中要写三种标签 <template>  </template>…...

编程新知 2026/1/31 6:04:01

postgresql|数据库|只读用户的创建和删除（备忘）

CREATE USER read_only WITH PASSWORD 密码 -- 连接到xxx数据库 \c xxx -- 授予对xxx数据库的只读权限 GRANT CONNECT ON DATABASE xxx TO read_only; GRANT USAGE ON SCHEMA public TO read_only; GRANT SELECT ON ALL TABLES IN SCHEMA public TO read_only; GRANT EXECUTE O…...

编程新知 2025/9/18 19:34:22