Python带你一键下载到最新章节,不付费也能看
前言
大家早好、午好、晚好吖 ❤ ~欢迎光临本文章
完整源码、素材皆可点击文章下方名片获取此处跳转
开发环境:
-
python 3.8 运行代码
-
pycharm 2022.3 辅助敲代码
-
requests 发送请求/第三方模块
模块安装:win + R 输入cmd 输入安装命令 pip install 模块名
如果出现爆红 可能是因为 网络连接超时 切换国内镜像源
案例基本思路流程:
一. 思路分析
找到数据来源 如何去采集单个章节的内容
如果是动态加载的数据 通过network去抓包分析
二. 代码实现
-
发送请求 通过代码的方式去访问 网站
-
获取数据 访问完网址之后 反应 网页代码
-
解析数据 提取我们需要用到的信息
-
保存数据 打包带走
代码展示
导入模块
import requests # 发送请求
import re
请求链接
main_url = 'https://****/book_8227/'
换一个章节 下载 ?
只需要获取到所有的章节链接 是不是我们就可以拿到整本小说的内容
html = requests.get(main_url).text
# <dd><a href="(.*?)">.*?</a></dd>
# <dd><a href="(.*?)">.*?</a></dd>
link_list = re.findall('<dd><a href="(.*?)">.*?</a></dd>', html)
for link in link_list:
如何去采集整本小说 / 代码能够实现小说下载通用性
url = main_url + link
1. 发送请求
response = requests.get(url)
2. 获取数据
<Response [200]>:
请求成功
html_data = response.text
3. 解析数据
结构化数据 : json数据 {"":"", "":""}
转成 字典 使用字典取值 / re
正则表达式
非结构化数据 : 网页源代码 css/xpath/re
什么是正则?
规则 搜索功能的高级用法
我忘记这中间是什么内容, 也不知道有多长, 还是想要匹配到这一整句话在内容当中出现的位置
.*?:
匹配任意字符 0次或者多次
少女年龄不过十四左右,.*?,不过那张稚气未脱的小脸
title = re.findall('<h1>(.*?)</h1>', html_data)[0]text = re.findall('<br><br>(.*?)</div>', html_data)[0]
代表一个空格
text = text.replace(' ', ' ')
<br />
代表一个换行
text = text.replace('<br />', '\n')text = title + "\n\n\n" + textprint(text)
4. 保存数据
a:
追加写入
w:
覆盖写入
f = open('斗破苍穹.txt', mode='a', encoding='utf-8')f.write(text)f.close()
尾语 💝
好了,今天的分享就差不多到这里了!
完整代码、更多资源、疑惑解答直接点击下方名片自取即可。
对下一篇大家想看什么,可在评论区留言哦!看到我会更新哒(ง •_•)ง
喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!
相关文章:
![](https://img-blog.csdnimg.cn/ebd6368985ad4404acfc46a2de000eae.gif)
Python带你一键下载到最新章节,不付费也能看
前言 大家早好、午好、晚好吖 ❤ ~欢迎光临本文章 完整源码、素材皆可点击文章下方名片获取此处跳转 开发环境: python 3.8 运行代码 pycharm 2022.3 辅助敲代码 requests 发送请求/第三方模块 模块安装:win R 输入cmd 输入安装命令 pip install 模块名 如果…...
![](https://img-blog.csdnimg.cn/acd5781724bb4285b1504f67f918b359.png)
【sentinel】熔断降级规则详解及源码分析
概述 除了流量控制以外,对调用链路中不稳定的资源进行熔断降级也是保障高可用的重要措施之一。一个服务常常会调用别的模块,可能是另外的一个远程服务、数据库,或者第三方API等。例如,支付的时候,可能需要远程调用银联…...
![](https://www.ngui.cc/images/no-images.jpg)
ffplay源码分析-main函数入口分析
ffplay源码分析-main函数入口分析 基于ffmpeg6.0源码分析。 流程 使用ffplay播放视频文件,会触发main函数的调用。main函数中会进行以下操作: 从命令行中解析日志级别、日志是否需要落文件、是否要输出banner信息。banner信息包含版权、库的版本。注…...
![](https://img-blog.csdnimg.cn/img_convert/5f2e6a76ab868532793d7586f1920a0f.png)
C++三种继承方式
C继承的一般语法为:class 派生类名:[继承方式] 基类名{派生类新增加的成员};继承方式限定了基类成员在派生类中的访问权限,包括 public(公有的)、private(私有的)和 protected&#…...
![](https://img-blog.csdnimg.cn/4f90db9be93a48b29f3b63e9a789cc7f.png)
【Android -- 软技能】《软技能:代码之外的生存指南》之好书推荐(一)
前言 这是一本由美国的一个软件开发人员写的,但书中除了有 Java 、C# 几个单词外,没有一行代码。 因为这本书讲的是代码之外的东西。 文章目录结构: 1. 职业 从业心态:说白了就是要有责任心,把每份工作要当成是自…...
![](https://www.ngui.cc/images/no-images.jpg)
Nginx可视化管理工具 - Nginx Proxy Manager
一、介绍 nginx-proxy-manager 是一个反向代理管理系统,它基于Nginx,具有漂亮干净的 Web UI。还可以获得受信任的 SSL 证书,并通过单独的配置、自定义和入侵保护来管理多个代理。 其官网地址如下: https://nginxproxymanager.com/ 二、安装 第一步:192.168.1.108服务…...
![](https://www.ngui.cc/images/no-images.jpg)
https是如何保证安全的
在学习http与https的区别的时候,我们通常从以下几点出发:http是超文本传输协议,是明文传输,有安全风险,https在TCP和http网络层之间加入了SSL/TLS安全协议,使得报文能够加密传输http连接简单,三…...
![](https://www.ngui.cc/images/no-images.jpg)
ubuntu下使用GCC开发单片机的过程
以下是一个简单的单片机C程序示例,实现的功能是控制LED灯的闪烁: #include <reg52.h> // 导入单片机的寄存器定义void main() {while(1) { // 无限循环P1 = 0x00; // P1口输出低电平delay(1000); // 延时1秒P1 = 0xff; // P1口输出高电平delay(1000); // 延时1秒…...
![](https://img-blog.csdnimg.cn/7b51f358abf14106bb9807cde48325fc.png)
人工智能能否取代软硬件开发工程师
版权声明 本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl 人工智能发展趋势 随着AI技术的不断发展,它正在改变我们的生活方式、商业模式和工作方式。人工智能技术的发展一直处于快速变化和持续创新的状态,以下…...
![](https://www.ngui.cc/images/no-images.jpg)
BPI-R3开发板 - uboot编译
一. 获取源码 https://github.com/mtk-openwrt/u-boot 二. 编译步骤 编译环境为ubuntu 18.04。交叉编译工具链我用的是openwrt编译生成的工具链,并设置到环境变量,如下: export PATH$PATH:/root/mt8976/BPI-R3-OPENWRT-V21.02.3-main/staging…...
![](https://img-blog.csdnimg.cn/img_convert/dee99cdfc5c2cfa3df82b90f978a4ef1.webp?x-oss-process=image/format,png)
优秀程序员的5个特征,你在第几层?
每个人程序员都对未来的职业发展有着憧憬和规划,要做架构师、要做技术总监、要做CTO。但现实总是复杂的,日复一日的工作与生活总能让人一次又一次地陷入迷茫。大部分原因就是对职业发展轨迹和自我能力提升的一般规律缺乏认识,做事找不到方向或…...
![](https://img-blog.csdnimg.cn/420c67c057174a8784d94c25e549704f.png)
JAVA Session会话 Thymeleaf - 视图模板技术配置步骤
JAVAWebSession会话会话跟踪技术session保存作用域Thymeleaf - 视图模板技术配置过程Session会话 HTTP是无状态的:服务器无法区分这两个请求是同一个客户端发过来的,还是不同的客户端发过来的 现实问题:第一次请求是添加商品到购物车&#x…...
![](https://www.ngui.cc/images/no-images.jpg)
Linux编译cpprestsdk库
本文用的Linux系统为Ubuntu22.04,自带GCC11.3.0。 依赖 ①编译需要boost库,本文用的库版本为boost-1.82.0.beta1.tar.gz。 ②编译需要openssl库,这里使用的版本为openssl-1.1.1s.tar.gz。 ③编译需要cmake库,本文使用的是cmake-3…...
![](https://img-blog.csdnimg.cn/c4e569fe36c349399afe29322bfc5c83.png)
算法的时间复杂度和空间复杂度
目录 1 如何衡量一个算法的好坏 2.时间复杂度 2.1 时间复杂度的概念 2.2 大O的渐进表示法 2.3常见代码举例 2.3.1 Func2 O(N) 2.3.2 Func3 O(MN) 2.3.3 Func4 O(1) 2.3.4 Func5 strchr O(N) 2.3.5 Func6 冒泡排序 O(N^2) 2.3.6 Func7 二分…...
![](https://img-blog.csdnimg.cn/7f5b4bc9ddc5498483f4f0263c16d119.png)
基本认识vue3
一、基本搭建 项目搭建 使用 最新的 Vue3 TS Vite项目 执行命令 (本项目采用如下方式) npm create vitelatest my-vite-app --template vue-ts或者 运行项目 npm install npm run dev项目搭建初始化目录 新搭建的项目可能会遇到个问题…...
![](https://img-blog.csdnimg.cn/img_convert/ec7613eb1a115448276e30dc0bff3bd1.png)
HTTP/HTTPS协议认识
写在前面 这个博客我们要要讨论的是协议,主要是应用层.今天我们将正式认识HTTP和HTTPS,也要认识序列化和反序列化,内容比较多,但是不难 再谈协议 我们程序员写的一个个解决我们实际问题, 满足我们日常需求的网络程序, 都是在应用层,我们要完成下面三个步骤. sock的使用 定制…...
![](https://img-blog.csdnimg.cn/1391aa8239204a4580db049f4475498f.png)
【VScode】远程连接Linux
目录标题1. 安装扩展插件2. 在Linux上操作3. 确定Linux的IP地址4. 远程连接到Linux5. 实现免密码登录使用 VScode 远程编程与调试的时有会用到插件 Remote Development,使用这个插件可以在很多情况下代替 vim 直接远程修改与调试服务器上的代码,同时具备…...
![](https://img-blog.csdnimg.cn/1974fe2662da40059d545acbb5975343.png)
QT/C++调试技巧:内存泄漏检测
文章目录内存泄漏方案一方案二:CRT调试定位代码位置方法1方法2其它问题方案三:使用vs诊断工具方案四:使用工具VLD(Visio Leak Detector)方案五Cppcheck内存泄漏 内存泄漏:指的是在程序里动态申请的内存在使…...
![](https://img-blog.csdnimg.cn/5bc78713193645f78b39580d90381dd8.jpeg#pic_center)
【贪心算法】一文让你学会“贪心”(贪心算法详解及经典案例)
文章目录前言如何理解“贪心算法”?贪心算法实战分析1.分糖果2.钱币找零3.区间覆盖内容小结最后说一句🐱🐉作者简介:大家好,我是黑洞晓威,一名大二学生,希望和大家一起进步。 👿本…...
![](https://img-blog.csdnimg.cn/4388369dffe648eb857d99d391e9eaeb.png#pic_center)
【字体图标iconfont】字体图标部署流程+项目源码分析
今日,心情甚是烦闷,原由… 公司项目需要将字体图标做一些细微的调整,我一人分析了许久,看不大懂源码的逻辑,产生了自我怀疑。深吸一口气,重新鼓起勇气,调整心境,一下子豁然开朗&…...
![](https://img-blog.csdnimg.cn/0f4184b8dd76462198fe995e491f423f.gif)
2023最全的Web自动化测试介绍(建议收藏)
做测试的同学们都了解,做Web自动化,我们主要用Selenium或者是QTP。 有的人可能就会说,我没这个Java基础,没有Selenium基础,能行吗?测试虽然属于计算机行业,但其实并不需要太深入的编程知识&…...
![](https://img-blog.csdnimg.cn/7fc0b9a951f7402c8bb657effc8a1a9e.png)
jvm_根节点枚举安全点安全区域
1、可达性分析可以分成两个阶段 根节点枚举 从根节点开始遍历对象图 前文我们在介绍垃圾收集算法的时候,简单提到过:标记-整理算法(Mark-Compact)中的移动存活对象操作是一种极为负重的操作,必须全程暂停用户应用程序才能进行,像这…...
![](https://img-blog.csdnimg.cn/img_convert/3ec84d5d3aa8ad1cd621ca05553e64db.png)
fabric(token-erc-20链码部署)
确保自己已经安装了fabric。没有安装的可以参考我之前的教程fabric中bootstrap.sh到底帮助我们干了什么?(手动执行相关操作安装fabric2.4)_./bootstrap.sh_小小小小关同学的博客-CSDN博客小伙伴们在跟着官方示例来安装fabric的时候都是相当烦…...
![](https://img-blog.csdnimg.cn/02689322e950416db1816be432f7b284.png)
C语言基础——流程控制语句
文章目录一、流程控制语句 -- 控制程序的运行过程 9条(一)、条件选择流程控制语句:if语句if……else……语句if……else if……语句switch语句(二)、循环流程控制语句:for语句while语句do while……语句co…...
![](https://img-blog.csdnimg.cn/6df947fa2672441fbeffad7ab236209f.gif)
WinForm | C# 界面弹出消息通知栏 (仿Win10系统通知栏)
ApeForms 弹出消息通知栏功能 文章目录ApeForms 弹出消息通知栏功能前言全局API通知栏起始方向通知排列方向通知栏之间的间隔距离无鼠标悬停时的不透明度消息通知窗体的默认大小示例代码文本消息提示栏文本消息提示栏(带选项)图文消息提示栏图文消息提示…...
![](https://img-blog.csdnimg.cn/f74590063ca84b7a89f85ec2e275e732.png)
刷题之最长公共/上升子序列问题
目录 一、最长公共子序列问题(LCS) 1、题目 2、题目解读 编辑 3、代码 四、多写一题 五、应用 二、最长上升子序列问题(LIS) 1、题目 2、题目解读 3、代码 四、多写一道 Ⅰ、题目解读 Ⅱ、代码 一、最长公共子序列问题&…...
![](https://img-blog.csdnimg.cn/img_convert/964d5c594e4c6ccea737be3c6b6bed4e.gif#pic_center)
【数据结构】千字深入浅出讲解栈(附原码 | 超详解)
🚀write in front🚀 📝个人主页:认真写博客的夏目浅石. 🎁欢迎各位→点赞👍 收藏⭐️ 留言📝 📣系列专栏:C语言实现数据结构 💬总结:希望你看完…...
![](https://www.ngui.cc/images/no-images.jpg)
自动驾驶V2X
1 SoC MDM9250 2 设备网络节点 mhi_swip0 rmnet_mhi0 3 网络协议栈log打印控制 include/linux/netdevice.h ethtool -s eth0 msglvl [level] ethtool -s eth0 msglvl 0x6001 4 URLs MHI initial design review https://lore.kernel.org/lkml/001601d52148$bd852840$388f78c0$c…...
![](https://img-blog.csdnimg.cn/cc9765dc19e34393bfec40e2103d80b9.png)
零基础自学网络安全/渗透测试有哪些常见误区?
一、网络安全学习的误区 1.不要试图以编程为基础去学习网络安全 不要以编程为基础再开始学习网络安全,一般来说,学习编程不但学习周期长,且过渡到网络安全用到编程的用到的编程的关键点不多。一般人如果想要把编程学好再开始学习网络安全往…...
![](https://img-blog.csdnimg.cn/b65225faa2174bf9ba5c6eede6aebe83.png)
ConvMixer:Patches Are All You Need
Patches Are All You Need 发表时间:[Submitted on 24 Jan 2022]; 发表期刊/会议:Computer Vision and Pattern Recognition; 论文地址:https://arxiv.org/abs/2201.09792; 代码地址:https:…...
![](https://img-blog.csdnimg.cn/img_convert/56c41f31b65947bf793fe00f23942fe5.png)
网站建站实训总结/网络营销的渠道
近日,有同事分享了国家药监局关于贯彻实施《中华人民共和国药品管理法》有关事项的公告(2019年第103号),突然想到对于滇中新区医疗器械产业园的招商工作可能会产生积极地影响。经查阅《中华人民共和国药品管理法》(以下…...
![](https://images2017.cnblogs.com/blog/400827/201712/400827-20171230115543882-1590325940.png)
专业做幼儿园设计的网站/日本比分预测
参考 温绍景-Java虚拟机基础...
![](/images/no-images.jpg)
asp网站开发实例/直通车关键词怎么选 选几个
我们知道一个类的构造函数指明了当我们定义一个类的对象时会发生什么,这一小节主要讨论另外几个与类的创建及删除有关的概念:复制构造函数(当复制一个类的对象时会发生什么),赋值构造操作符(当对类的对象进…...
![](/images/no-images.jpg)
新手如何做网站的教程/百度的链接
是因为用eclipse创建Maven项目的时候,web.xml的 <web-app .......> </web-app> 上面这个根节点的版本是2.3,太低,换成高版本的就可以使用了! 做法是:去tomcat服务器里找到web.xml,复制里面的…...
![](https://img-blog.csdnimg.cn/img_convert/49a07c73b54cd865d67aa4b22d507353.png)
个人空间备案网站名称/网站增加外链的方法有哪些
关注公众号【秋叶 Excel】回复关键词【工具】获取 Excel 高效小工具合集,让你效率开挂!本文作者:竺兰本文来源:秋叶Excel(ID:Excel100)本文编辑:思雨、竺兰距离下班还有俩小时,我伸了伸懒腰,想着…...
![](/images/no-images.jpg)
wordpress媒体库空白/网络推广大概需要多少钱
Linuxqq安装及其所引发的问题{权限位是 777 (必须 >0755 且 <0755)},linuxqq777oghostloghost-virtual-machine:~$ ~/home/loghost/qq$ sudo dpkg -i linuxqq_v1.0.2_beta1_i386.debbash: /home/loghost/home/loghost/qq$:没有那个文件或目录//问题1出现rootl…...