【python爬虫】酷狗音乐爬取练习
注意:本次爬取的音乐仅有1分钟试听,仅作学习爬虫的原理,完整音乐需要自行下载客户端。
一、 初步分析
登陆酷狗音乐后随机选取一首歌,在请求里发现一段mp3文件,复制网址,确实是我们需要的url。
复制音频的名字,搜索找到发起请求的网址,发现是在songinfo里
查看参数和请求头,刷新一次,查看是否有哪些参数是变化的。可以发现图中两次请求的这些参数都不同,接下来就寻找这些参数的生成方式,参数clienttime
为时间戳,那么就只需要找到signature
的生成方式就可以了:
二、分析参数signature
1. 分析过程
搜索参数signature
,并在可能生成的位置打上断点,然后刷新网页
网页断在了此处,可以看见参数signature
跟函数d
与数组s
有关。
补充:如果s的长度不为13,需要放行一下,点击这个按钮
查看函数d
的定义
发现函数内部没有wordsToBytes
函数和函数i
的相关定义,那么打下断点,查看具体函数的位置
获得wordsToBytes
函数的具体定义
获得i
函数的具体定义
i
函数里没有r.stringToBytes(t)
的相关定义,继续打下断点
找到r.stringToBytes(t)
的相关定义
接着查看s
的内容:在console里查看s
的内容,发现s
的值跟之前请求的参数类似。而且下标为0和下标为12的值跟u
的值相同
往上查找u
的定义,发现u
的值是固定的
2. 代码实现
那么就开始实现生成signature的代码(以下为JavaScript代码)
function bytesToWords(t) {for (var n = [], r = 0, e = 0; r < t.length; r++,e += 8)n[e >>> 5] |= t[r] << 24 - e % 32;return n
}function rotl(t, n) {return t << n | t >>> 32 - n
}function endian(t) {if (t.constructor == Number)return 16711935 & rotl(t, 8) | 4278255360 & rotl(t, 24);for (var n = 0; n < t.length; n++)t[n] = endian(t[n]);return t
}function i(t, c) {var l = {utf8: {stringToBytes: function (t) {return l.bin.stringToBytes(unescape(encodeURIComponent(t)))},bytesToString: function (t) {return decodeURIComponent(escape(l.bin.bytesToString(t)))}},bin: {stringToBytes: function (t) {for (var n = [], r = 0; r < t.length; r++)n.push(255 & t.charCodeAt(r));return n},bytesToString: function (t) {for (var n = [], r = 0; r < t.length; r++)n.push(String.fromCharCode(t[r]));return n.join("")}}};i._ff = function (t, n, r, e, o, i, c) {var s = t + (n & r | ~n & e) + (o >>> 0) + c;return (s << i | s >>> 32 - i) + n},i._gg = function (t, n, r, e, o, i, c) {var s = t + (n & e | r & ~e) + (o >>> 0) + c;return (s << i | s >>> 32 - i) + n},i._hh = function (t, n, r, e, o, i, c) {var s = t + (n ^ r ^ e) + (o >>> 0) + c;return (s << i | s >>> 32 - i) + n},i._ii = function (t, n, r, e, o, i, c) {var s = t + (r ^ (n | ~e)) + (o >>> 0) + c;return (s << i | s >>> 32 - i) + n};t.constructor == String ? t = c && "binary" === c.encoding ? o.stringToBytes(t) : l.utf8.stringToBytes(t) : e(t) ? t = Array.prototype.slice.call(t, 0) : Array.isArray(t) || (t = t.toString());for (var s = bytesToWords(t), a = 8 * t.length, l = 1732584193, u = -271733879, f = -1732584194, d = 271733878, g = 0; g < s.length; g++)s[g] = 16711935 & (s[g] << 8 | s[g] >>> 24) | 4278255360 & (s[g] << 24 | s[g] >>> 8);s[a >>> 5] |= 128 << a % 32,s[14 + (a + 64 >>> 9 << 4)] = a;for (var b = i._ff, p = i._gg, h = i._hh, m = i._ii, g = 0; g < s.length; g += 16) {var y = l, j = u, S = f, v = d;u = m(u = m(u = m(u = m(u = h(u = h(u = h(u = h(u = p(u = p(u = p(u = p(u = b(u = b(u = b(u = b(u, f = b(f, d = b(d, l = b(l, u, f, d, s[g + 0], 7, -680876936), u, f, s[g + 1], 12, -389564586), l, u, s[g + 2], 17, 606105819), d, l, s[g + 3], 22, -1044525330), f = b(f, d = b(d, l = b(l, u, f, d, s[g + 4], 7, -176418897), u, f, s[g + 5], 12, 1200080426), l, u, s[g + 6], 17, -1473231341), d, l, s[g + 7], 22, -45705983), f = b(f, d = b(d, l = b(l, u, f, d, s[g + 8], 7, 1770035416), u, f, s[g + 9], 12, -1958414417), l, u, s[g + 10], 17, -42063), d, l, s[g + 11], 22, -1990404162), f = b(f, d = b(d, l = b(l, u, f, d, s[g + 12], 7, 1804603682), u, f, s[g + 13], 12, -40341101), l, u, s[g + 14], 17, -1502002290), d, l, s[g + 15], 22, 1236535329), f = p(f, d = p(d, l = p(l, u, f, d, s[g + 1], 5, -165796510), u, f, s[g + 6], 9, -1069501632), l, u, s[g + 11], 14, 643717713), d, l, s[g + 0], 20, -373897302), f = p(f, d = p(d, l = p(l, u, f, d, s[g + 5], 5, -701558691), u, f, s[g + 10], 9, 38016083), l, u, s[g + 15], 14, -660478335), d, l, s[g + 4], 20, -405537848), f = p(f, d = p(d, l = p(l, u, f, d, s[g + 9], 5, 568446438), u, f, s[g + 14], 9, -1019803690), l, u, s[g + 3], 14, -187363961), d, l, s[g + 8], 20, 1163531501), f = p(f, d = p(d, l = p(l, u, f, d, s[g + 13], 5, -1444681467), u, f, s[g + 2], 9, -51403784), l, u, s[g + 7], 14, 1735328473), d, l, s[g + 12], 20, -1926607734), f = h(f, d = h(d, l = h(l, u, f, d, s[g + 5], 4, -378558), u, f, s[g + 8], 11, -2022574463), l, u, s[g + 11], 16, 1839030562), d, l, s[g + 14], 23, -35309556), f = h(f, d = h(d, l = h(l, u, f, d, s[g + 1], 4, -1530992060), u, f, s[g + 4], 11, 1272893353), l, u, s[g + 7], 16, -155497632), d, l, s[g + 10], 23, -1094730640), f = h(f, d = h(d, l = h(l, u, f, d, s[g + 13], 4, 681279174), u, f, s[g + 0], 11, -358537222), l, u, s[g + 3], 16, -722521979), d, l, s[g + 6], 23, 76029189), f = h(f, d = h(d, l = h(l, u, f, d, s[g + 9], 4, -640364487), u, f, s[g + 12], 11, -421815835), l, u, s[g + 15], 16, 530742520), d, l, s[g + 2], 23, -995338651), f = m(f, d = m(d, l = m(l, u, f, d, s[g + 0], 6, -198630844), u, f, s[g + 7], 10, 1126891415), l, u, s[g + 14], 15, -1416354905), d, l, s[g + 5], 21, -57434055), f = m(f, d = m(d, l = m(l, u, f, d, s[g + 12], 6, 1700485571), u, f, s[g + 3], 10, -1894986606), l, u, s[g + 10], 15, -1051523), d, l, s[g + 1], 21, -2054922799), f = m(f, d = m(d, l = m(l, u, f, d, s[g + 8], 6, 1873313359), u, f, s[g + 15], 10, -30611744), l, u, s[g + 6], 15, -1560198380), d, l, s[g + 13], 21, 1309151649), f = m(f, d = m(d, l = m(l, u, f, d, s[g + 4], 6, -145523070), u, f, s[g + 11], 10, -1120210379), l, u, s[g + 2], 15, 718787259), d, l, s[g + 9], 21, -343485551),l = l + y >>> 0,u = u + j >>> 0,f = f + S >>> 0,d = d + v >>> 0}return endian([l, u, f, d])
}function wordsToBytes(t) {for (var n = [], r = 0; r < 32 * t.length; r += 8)n.push(t[r >>> 5] >>> 24 - r % 32 & 255);return n
}function bytesToHex(t) {for (var n = [], r = 0; r < t.length; r++)n.push((t[r] >>> 4).toString(16)),n.push((15 & t[r]).toString(16));return n.join("")
}function d(t, r) {if (void 0 === t || null === t)throw new Error("Illegal argument " + t);var e = wordsToBytes(i(t, r));return r && r.asBytes ? e : r && r.asString ? o.bytesToString(e) : bytesToHex(e)
}function getsianature() {var s = ["NVPh5oo715z5DIWAeQlhMDsWXXQV4hwt","appid=1014","clienttime=1741411989613","clientver=20000","dfid=3Mm61k0WDxvm033Epz2worRG","encode_album_audio_id=j410q60","mid=70789bebe63fb74c52e4a911853f5450","platid=4","srcappid=2919","token=cbfe2e174e4b97fd6aca35682cdba3d2b431c4ed95e2dbd1779e37a7975b672c","userid=2307902397","uuid=70789bebe63fb74c52e4a911853f5450","NVPh5oo715z5DIWAeQlhMDsWXXQV4hwt"];return d(s.join(""))
}console.log(getsianature());
经过一系列调试,可以发现生成的结果与浏览器生成的值一样,那么生成signature的代码就没问题了。
将一些会变的值改为变量,可以看到参数s
的值里只有clienttime
的值是会变的,因此修改上述代码中getsianature
函数,将参数s
的值放在python代码中,getsianature
函数改完如下图所示:
function getsianature(s) {return d(s.join(""))
}
三、获取多首歌
1. 分析过程
点击不同的歌,可以发现每首歌的参数encode_album_audio_id
都不同,因此需要获取encode_album_audio_id
搜索歌名,找到歌曲的id
接着查看请求参数,同样有一个signature
参数,刷新多次网页发现signature
参数会变化,那么重复之前分析signature
的步骤
打下断点,查看中断的位置,参数s
有所变化
打印s
,查看s
的内容,除此之外没有变化,那么就沿用先前的代码
2. 代码实现
完整代码如下,注意这里调用了JavaScript代码,需要安装PyExecJS模块:pip install PyExecJS -i https://pypi.tuna.tsinghua.edu.cn/simple。
本代码中JavaScript文件名为kugou.js
,JavaScript代码在参数signature
的分析中有写到,以下为python代码:
import json
import re
import time
import requests
import execjsclass kugou_music:def __init__(self):self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/133.0.0.0 Safari/537.36','Referer': 'https://www.kugou.com/',}def get_signature(self, s):with open("kugou.js", "r", encoding="utf-8") as f:js = f.read()ctx = execjs.compile(js)signature = ctx.call("getsianature", s)return signaturedef get_one_song_url(self, audio_id):timestamp = str(int(time.time() * 1000))s = ["NVPh5oo715z5DIWAeQlhMDsWXXQV4hwt","appid=1014",f"clienttime={timestamp}","clientver=20000","dfid=3Mm61k0WDxvm033Epz2worRG",f"encode_album_audio_id={audio_id}","mid=70789bebe63fb74c52e4a911853f5450","platid=4","srcappid=2919","token=cbfe2e174e4b97fd6aca35682cdba3d2b431c4ed95e2dbd1779e37a7975b672c","userid=2307902397","uuid=70789bebe63fb74c52e4a911853f5450","NVPh5oo715z5DIWAeQlhMDsWXXQV4hwt"]signature = self.get_signature(s)params = {'srcappid': '2919','clientver': '20000','clienttime': timestamp,'mid': '70789bebe63fb74c52e4a911853f5450','uuid': '70789bebe63fb74c52e4a911853f5450','dfid': '3Mm61k0WDxvm033Epz2worRG','appid': '1014','platid': '4','encode_album_audio_id': audio_id,'token': 'cbfe2e174e4b97fd6aca35682cdba3d2b431c4ed95e2dbd1779e37a7975b672c','userid': '2307902397','signature': signature}one_song_url = 'https://wwwapi.kugou.com/play/songinfo'response = requests.get(one_song_url, headers=self.headers, params=params)song_url = response.json()['data']['play_url']return song_urldef get_signal_music(self, audio_id, audio_name):song_url = self.get_one_song_url(audio_id)response = requests.get(song_url, headers=self.headers)with open(f'{audio_name}.mp3', 'wb') as f:f.write(response.content)print(f'{audio_name}.mp3下载完成')def get_song_id(self,keyword):timestamp = str(int(time.time() * 1000))s = ["NVPh5oo715z5DIWAeQlhMDsWXXQV4hwt","appid=1014","bitrate=0","callback=callback123",f"clienttime={timestamp}","clientver=1000","dfid=3Mm61k0WDxvm033Epz2worRG","filter=10","inputtype=0","iscorrection=1","isfuzzy=0",f"keyword={keyword}","mid=70789bebe63fb74c52e4a911853f5450","page=1","pagesize=30","platform=WebFilter","privilege_filter=0","srcappid=2919","token=cbfe2e174e4b97fd6aca35682cdba3d2b431c4ed95e2dbd1779e37a7975b672c","userid=2307902397","uuid=70789bebe63fb74c52e4a911853f5450","NVPh5oo715z5DIWAeQlhMDsWXXQV4hwt"]signature = self.get_signature(s)params = {'callback': 'callback123','srcappid': '2919','clientver': '1000','clienttime': timestamp,'mid': '70789bebe63fb74c52e4a911853f5450','uuid': '70789bebe63fb74c52e4a911853f5450','dfid': '3Mm61k0WDxvm033Epz2worRG','keyword': keyword,'page': '1','pagesize': '30','bitrate': '0','isfuzzy': '0','inputtype': '0','platform': 'WebFilter','userid': '2307902397','iscorrection': '1','privilege_filter': '0','filter': '10','token': 'cbfe2e174e4b97fd6aca35682cdba3d2b431c4ed95e2dbd1779e37a7975b672c','appid': '1014','signature': signature}song_id_url = 'https://complexsearchretry.kugou.com/v2/search/song'response = requests.get(song_id_url, headers=self.headers, params=params, verify=False)temp = re.findall(r'callback123(.*)', response.text)[0][1:-1]temp = json.loads(temp)song = temp['data']['lists']return songdef get_all_song(self,keyword):song = self.get_song_id(keyword)for i in song:song_id = i.get('EMixSongID')song_name = i.get('FileName')# print(song_name, song_id)try:self.get_signal_music(song_id, song_name)except Exception as e:print(f'{song_name}下载失败:', e)if __name__ == '__main__':kugou = kugou_music()# kugou.get_signal_music('j410q60')keyword='周杰伦'kugou.get_all_song(keyword)
相关文章:

【python爬虫】酷狗音乐爬取练习
注意:本次爬取的音乐仅有1分钟试听,仅作学习爬虫的原理,完整音乐需要自行下载客户端。 一、 初步分析 登陆酷狗音乐后随机选取一首歌,在请求里发现一段mp3文件,复制网址,确实是我们需要的url。 复制音频的…...

阿里云 DataWorks面试题集锦及参考答案
目录 简述阿里云 DataWorks 的核心功能模块及其在企业数据治理中的作用 简述 DataWorks 的核心功能模块及其应用场景 解释 DataWorks 中工作空间、项目、业务流程的三层逻辑关系 解释 DataWorks 中的 “节点”、“工作流” 和 “依赖关系” 设计 解释 DataWorks 中 “周期任…...

uniapp+Vue3 开发小程序的下载文件功能
小程序下载文件,可以先预览文件内容,然后在手机上打开文件的工具中选择保存。 简单示例:(复制到HBuilder直接食用即可) <template><view class"container-detail"><view class"example…...

Apache Log4j 2
目录 1. Apache Log4j 2 简介 1.1 什么是Log4j 2? 1.2 Log4j 2 的主要特性 2. Log4j 2 的核心组件 2.1 Logger 2.2 Appender 2.3 Layout 2.4 Filter 2.5 Configuration 3. Log4j 2 的配置 4. Log4j 2 的使用示例 4.1 Maven 依赖 4.2 示例代码 4.3 输出…...

4.2.2 ArrayList类
ArrayList类与List类的用法差不多,提供的方法也差不多。但是与List不同的是,ArrayList可以包含任意类型的数据,但是相应的,要使用包含的数据,就必须对数据做相应的装箱和拆箱(关于装箱和拆箱,请…...

L1-088 静静的推荐
L1-088 静静的推荐 - 团体程序设计天梯赛-练习集 (pintia.cn) 题解 这里代码很简单,但是主要是循环里面的内容很难理解,下面是关于循环里面的内容理解: 这里 n 10 表示有 10 个学生,k 2 表示企业接受 2 批次的推荐名单&#…...

普及听力保健知识竞赛
普及听力保健知识竞赛 热点指数:★★★ 日期:3月3日 关键词:爱耳护耳、听力健康、耳部保健、听力科普 适合行业:医疗健康、健康护理、教育培训、公益组织 推荐功能:答题、H5宣传 宣传方向:广泛普及听力…...

小结: IGMP协议
IGMP(Internet Group Management Protocol)协议详解 IGMP(Internet Group Management Protocol)是IPv4 组播(Multicast)通信的控制协议,主要用于主机和路由器之间的组播成员管理。IGMP 允许主机…...

Dify 本地部署教程
目录 一、下载安装包 二、修改配置 三、启动容器 四、访问 Dify 五、总结 本篇文章主要记录 Dify 本地部署过程,有问题欢迎交流~ 一、下载安装包 从 Github 仓库下载最新稳定版软件包,点击下载~,当然也可以克隆仓库或者从仓库里直接下载zip源码包。 目前最新版本是V…...

ConcurrentHashMap从源码总结使用注意事项(源码)
ConcurrentHashMap实现原理 目录 ConcurrentHashMap实现原理核心源码解读(1)数据结构: 采用数组链表/红黑树(2)初始化(3)并发扩容(4)put 操作流程(5)计数 siz…...

前端 UI 框架发展史
上一小节我们了解了前端 UI 框架的作用和意义,接下来我们再来了解前端 UI 框架的发展历史。 虽然是讲历史,但我不想讲得太复杂,也不打算搞什么编年史记录啥的,毕竟我们不是来学历史的。 我会简单描述一下前端 UI 框架的发展历程…...

【工控】线扫相机小结 第五篇
背景介绍 线扫相机通过光栅尺的脉冲触发, 我在调试线扫过程中,发现图像被拉伸,预设调节分配器。图像正常后,我提高的相机的扫描速度(Y轴动的更快了)。 动的更快的发现,图像变短了(以…...

AI与SEO关键词智能解析
内容概要 人工智能技术正重塑搜索引擎优化的底层逻辑,其核心突破体现在关键词解析维度的结构性升级。通过机器学习算法对海量搜索数据的动态学习,AI不仅能够识别传统TF-IDF模型中的高频词汇,更能捕捉语义网络中隐含的关联特征。下表展示了传…...

STM32---FreeRTOS消息队列
一、简介 1、队列简介: 队列:是任务到任务,任务到中断、中断到任务数据交流的一种机制(消息传递)。 FreeRTOS基于队列,实现了多种功能,其中包括队列集、互斥信号量、计数型信号量、二值信号量…...

开关模式电源转换器 EMI/EMC 的集成仿真
介绍 在电力电子领域,电磁干扰 (EMI) 和电磁兼容性 (EMC) 问题可以决定设计的成败。开关模式电源转换器虽然高效且紧凑,但却是电磁噪声的常见来源,可能会对附近的组件和系统造成严重破坏。随着…...

Java虚拟机之垃圾收集(一)
目录 一、如何判定对象“生死”? 1. 引用计数算法(理论参考) 2. 可达性分析算法(JVM 实际使用) 3. 对象的“缓刑”机制 二、引用类型与回收策略 三、何时触发垃圾回收? 1. 分代回收策略 2. 手动触发…...

linux---天气爬虫
代码概述 这段代码实现了一个天气查询系统,支持实时天气、未来天气和历史天气查询。用户可以通过终端菜单选择查询类型,并输入城市名称来获取相应的天气信息。程序通过 TCP 连接发送 HTTP 请求,并解析返回的 JSON 数据来展示天气信息。 #in…...

字节顺序(大小端序)
在弄明白字节顺序之前先了解一下一些基础概念. 基础概念 字节(byte): 字节是计算机中数据处理的基本单位,通常由8个位组成,即1字节等于8位。一个字节可以存储一个ASCII码,两个字节可以存放一个汉字国标…...

可复用的 Vue 轮播图组件
大家好,今天我想和大家分享一下如何开发一个通用的 Vue 轮播图组件。轮播图在各种网站中都很常见,无论是展示产品、活动还是文章,都能派上用场。我们今天要实现的这个组件会具备良好的可配置性和易用性,同时保证代码的可维护性。 …...

AI编程: 一个案例对比CPU和GPU在深度学习方面的性能差异
背景 字节跳动正式发布中国首个AI原生集成开发环境工具(AI IDE)——AI编程工具Trae国内版。 该工具模型搭载doubao-1.5-pro,支持切换满血版DeepSeek R1&V3, 可以帮助各阶段开发者与AI流畅协作,更快、更高质量地完…...

Linux红帽:RHCSA认证知识讲解(五)从红帽和 DNF 软件仓库下载、安装、更新和管理软件包
Linux红帽:RHCSA认证知识讲解(五)从红帽和 DNF 软件仓库下载、安装、更新和管理软件包 前言一、DNF 软件包管理基础1.1 核心操作命令安装软件包卸载软件包重新安装软件包 1.2 软件仓库原理 二、配置自定义软件仓库步骤 1:清理默认…...

云上特权凭证攻防启示录:从根账号AK泄露到安全体系升级的深度实践
事件全景:一场持续17分钟的云上攻防战 2025年3月9日15:39,阿里云ActionTrail日志突现异常波纹——根账号acs:ram::123456789:root(已脱敏)从立陶宛IP(164.92.91.227)发起高危操作。攻击者利用泄露的AccessKey(AK)在17分钟内完成侦察→提权→持久化攻击链,完整操作序列…...

从3b1b到课堂:教育3D化的理想与现实鸿沟
从3b1b到课堂:教育3D化的理想与现实鸿沟 3Blue1Brown(3b1b)凭借精妙的三维动画与直观的知识可视化,重新定义了数学教育的可能性。然而,当前教育实践中,3D技术的渗透仍显不足,多数课堂停留在平面…...

FPGA入门教程
引言 FPGA(Field-Programmable Gate Array,现场可编程门阵列)是一种灵活且强大的硬件设备,广泛应用于数字电路设计、信号处理、嵌入式系统等领域。与传统的ASIC(专用集成电路)不同,FPGA允许用户…...

Liunx系统 : 进程间通信【IPC-Shm共享内存】
文章目录 System V共享内存创建共享内存shmget 控制共享内存shmctl shm特性 System V System V是Liunx中的重要的进程间通信机制,它包括(shm)共享内存,(msg)消息队列和(sem)信号量。…...

KafkaRocketMQ
Kafka 消息生产与消费流程 1. 消息生产 生产者创建消息: 指定目标 Topic、Key(可选)、Value。可附加 Header 信息(如时间戳、自定义元数据)。 选择分区(Partition): 若指定 Key&am…...

HarmonyOS Next 中的状态管理
在声明式UI编程框架中,UI是程序状态的运行结果,用户构建了一个UI模型,其中应用的运行时的状态是参数。当参数改变时,UI作为返回结果,也将进行对应的改变。这些运行时的状态变化所带来的UI的重新渲染,在ArkU…...

基于qiime2的16S数据分析全流程:从导入数据到下游分析一条龙
目录 创建metadata 把数据导入qiime2 去除引物序列 双端合并 (dada2不需要) 质控 (dada2不需要) 使用deblur获得特征序列 使用dada2生成代表序列与特征表 物种鉴定 可视化物种鉴定结果 构建进化树(ITS一般不构建进化树…...

【软件测试开发】:软件测试常用函数1.0(C++)
1. 元素的定位 web⾃动化测试的操作核⼼是能够找到⻚⾯对应的元素,然后才能对元素进⾏具体的操作。 常⻅的元素定位⽅式⾮常多,如id,classname,tagname,xpath,cssSelector 常⽤的主要由cssSelector和xpath…...

vue2项目修改浏览器显示的网页图标
1.准备一个新的图标文件,通常是. ico格式,也可以是. Png、. Svg等格式 2.将新的图标文件(例如:faviconAt.png)放入项目的public文件夹中。如下图 public文件夹中的所有文件都会在构建时原样复制到最终的输出目录(通常是dist) 3. 修改vue项目…...