爬虫源码---爬取自己想要看的小说
前言:
小说作为在自己空闲时间下的消遣工具,对我们打发空闲时间很有帮助,而我们在网站上面浏览小说时会被广告和其他一些东西影响我们的观看体验,而这时我们就可以利用爬虫将我们想要观看的小说下载下来,这样就不会担心广告的影响了。
一:环境配置
Python版本:3.7.3
IDE:PyCharm
所需库:requests,lxml,time
二:准备工作
1:安装好我们所需要的库。
2:我们需要在电脑上的指定位置来创建一个文件夹来保存我们爬取的小说。
3:需要去下载XPATH插件以便于我们获取小说的名字(资源已上传,可自行下载安装)。
三:具体代码实现
import requests
from lxml import etree
import time
url = 'https://www.biquge365.net/newbook/33411/'
head = {'Referer': 'https://www.biquge365.net/book/33411/','users-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.39'
}
response = requests.get(url,headers = head,verify = False)
# print(response.text)
html = etree.HTML(response.text)
novel_name = html.xpath('/html/body/div[1]/div[3]/div[1]/h1/text()')[0]
novel_directory = html.xpath('/html/body/div[1]/div[4]/ul/li[*]/a/@href')
#由于网站可能具有反扒措施,所以我们设置一下时间,防止被反扒
time.sleep(6)
for i in novel_directory:com_url = 'https://www.biquge365.net'+iresponse2 = requests.get(com_url,headers=head)html2 = etree.HTML(response2.text)novel_chapter = html2.xpath('//*[@id="neirong"]/h1/text()')[0]novel_content = '\n'.join(html2.xpath('//*[@id="txt"]/text()'))with open('E:\\python源码\\爬虫教程\\小说.txt'+novel_chapter+'.txt','w',encoding='utf-8') as file:file.write(novel_chapter+'\n'+novel_content+'\n')file.close()print("下载成功"+novel_chapter)
四:结果展示
相关文章:
![](https://img-blog.csdnimg.cn/d93252edb9fc4bfa9704bd0464967458.png)
爬虫源码---爬取自己想要看的小说
前言: 小说作为在自己空闲时间下的消遣工具,对我们打发空闲时间很有帮助,而我们在网站上面浏览小说时会被广告和其他一些东西影响我们的观看体验,而这时我们就可以利用爬虫将我们想要观看的小说下载下来,这样就不会担…...
![](https://img-blog.csdnimg.cn/img_convert/2671b06e86d2da2291eba752376e1cc0.png)
【AGC】云数据库API9开发问题汇总
【问题描述】 云数据库HarmonyOS API9 SDK已经推出了一段时间了,下面为大家汇总一些在集成使用中遇到的问题和解决方案。 【问题分析】 1. 报错信息:数据库初始化失败:{“message”:“The object type list and permission …...
![](https://img-blog.csdnimg.cn/59539d42347a403c8b2df0582abb131c.png)
ASP.NET Core IOC容器
//IOC容器支持依赖注入{ServiceCollection serviceDescriptors new ServiceCollection();serviceDescriptors.AddTransient<IMicrophone, Microphone>();serviceDescriptors.AddTransient<IPower, Power>();serviceDescriptors.AddTransient<IHeadphone, Headp…...
入门力扣自学笔记277 C++ (题目编号:42)(动态规划)
42. 接雨水 题目: 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入:height [0,1,0,2,1,0,1,3,2,1,2,1] 输出:6 解释:上面是由数组…...
![](https://img-blog.csdnimg.cn/7d8fa5a5d52d4e5fa413810648c504fc.png)
SwiftUI实现iPad多任务分屏
1. 概述 iPadOS引入了多任务分屏功能,使用户能够同时在一个屏幕上使用多个应用程序。这为用户提供了更高效的工作环境,可以在同一时间处理多个任务。 iPad多任务分屏有两种常见的模式:1/2分屏和Slide Over(滑动覆盖)…...
![](https://img-blog.csdnimg.cn/d3d5a77a1a934e2aada54d5e0b73f9be.png)
maven依赖,继承
依赖的范围 compile引入的依赖 对main目录下的代码有没有效,main目录下的代码能不能用compile引入的依赖中的类等 以test引入的依赖,在main中是否可以使用 provided(已提供),有了就不要带到服务器上,打包…...
![](https://img-blog.csdnimg.cn/493d7a73f7d34efca745ebceb981e32a.gif#pic_center)
仿`gRPC`功能实现像调用本地方法一样调用其他服务器方法
文章目录 仿gRPC功能实现像调用本地方法一样调用其他服务器方法 简介单体架构微服务架构RPCgPRC gRPC交互逻辑服务端逻辑客户端逻辑示例图 原生实现仿gRPC框架编写客户端方法编写服务端方法综合演示 仿 gRPC功能实现像调用本地方法一样调用其他服务器方法 简介 在介绍gRPC简介…...
![](https://img-blog.csdnimg.cn/bde7ae6359c44370bb3cb152dcfb4240.png)
分布式环境下的数据同步
一般而言elasticsearch负责搜索(查询),而sql数据负责记录(增删改),elasticsearch中的数据来自于sql数据库,因此sql数据发生改变时,elasticsearch也必须跟着改变,这个就是…...
![](https://img-home.csdnimg.cn/images/20230724024159.png?be=1&origin_url=https://www.learnfk.com/guide/images/wuya.png)
无涯教程-Flutter - 数据库
SQLite" class"css-1occaib">SQLite数据库是基于事实和标准SQL的嵌入式数据库引擎,它是小型且经过时间考验的数据库引擎,sqflite软件包提供了许多函数,可以有效地与SQLite数据库一起使用,它提供了操作SQLite数据…...
![](https://img-blog.csdnimg.cn/344a998571554d87a362b157a43de47b.jpeg)
算法笔记:平衡二叉树
1 介绍 平衡二叉树(AVL树)是一种特殊的二叉搜索树(BST),它自动确保树保持低高度,以便实现各种基本操作(如添加、删除和查找)的高效性能。 ——>时间都维持在了O(logN)它是一棵空…...
![](https://www.ngui.cc/images/no-images.jpg)
redis 通用命令
目录 通用命令是什么 SET & GET keys EXISTS DEL EXPIRE TTL redis 的过期策略 定时器策略 基于优先级队列定时器 基于时间轮的定时器 TYPE 通过 redis 客户端和 redis 服务器交互。 所以需要使用 redis 的命令,但是 redis 的命令非常多。 通用命令…...
![](https://img-blog.csdnimg.cn/d838c8f45c61424daea1afa32781cf06.jpeg)
Pycharm配置及使用Git教程
文章目录 1. 安装PyCharm2. 安装Git3. 在PyCharm中配置Git插件4. 连接远程Gtilab仓库5. Clone项目代码6. 将本地文件提交到远程仓库6.1 git add6.2 git commit6.3 git push6.4 git pull 平时习惯在windows下开发,但是我们又需要实时将远方仓库的代码clone到本地&…...
![](https://www.ngui.cc/images/no-images.jpg)
CSS transition 过渡
1 前言 水平居中、垂直居中是前端面试百问不厌的问题。 其实现方案也是多种多样,常叫人头昏眼花。 水平方向可以认为是内联方向,垂直方向认为是块级方向。 下面介绍一些常见的方法。 2 内联元素的水平垂直居中 首先,常见内联元素有&…...
![](https://img-blog.csdnimg.cn/3324bcb653b84d5abd3e95981b68059f.gif)
Unity中Shader的UV扭曲效果的实现
文章目录 前言一、实现的思路1、在属性面板暴露一个 扭曲贴图的属性2、在片元结构体中,新增一个float2类型的变量,用于独立存储将用于扭曲的纹理的信息3、在顶点着色器中,根据需要使用TRANSFORM_TEX对Tilling 和 Offset 插值;以及…...
![](https://img-blog.csdnimg.cn/bb111097ddd642259b21fe2e01fcb84f.png)
Automotive 添加一个特权APP
Automotive 添加一个特权APP platform: android-13.0.0_r32 一. 添加一个自定义空调的app为例 路径:packages/apps/Car/MyHvac app内容可以自己定义,目录结构如下: 1.1 Android.bp package {default_applicable_licenses: ["Andr…...
![](https://www.ngui.cc/images/no-images.jpg)
自定义TimeLine
自定义TimeLine 什么是TimeLineData(数据)Clip(片段)Track(轨道)Mixer(混合) 什么是TimeLine 在 Unity 中,TimeLine(时间轴)是一种用于创建和管理…...
![](https://www.ngui.cc/images/no-images.jpg)
如何使用SQL系列 之 如何在SQL中使用WHERE条件语句
引言 在结构化查询语言 (SQL)语句中,WHERE子句限制了给定操作会影响哪些行。它们通过定义特定的条件(称为搜索条件)来实现这一点,每一行都必须满足这些条件才能受到操作的影响。 本指南将介绍WHERE子句中使用的通用语法。它还将概述如何在单个WHERE子句…...
![](https://img-blog.csdnimg.cn/44b68787936d4b98b53480e3a8d9295b.png)
leetcode:1941. 检查是否所有字符出现次数相同(python3解法)
难度:简单 给你一个字符串 s ,如果 s 是一个 好 字符串,请你返回 true ,否则请返回 false 。 如果 s 中出现过的 所有 字符的出现次数 相同 ,那么我们称字符串 s 是 好 字符串。 示例 1: 输入:s…...
![](https://www.ngui.cc/images/no-images.jpg)
Echarts 各种点击事件监听
目录 一、鼠标事件1.1、左击1.2、双击1.3、右击1.4、右键双击1.5、中轴滚动二、时间轴2.1、时间轴监听三、拖动3.1、拖动事件一、鼠标事件 1.1、左击 chart.on(click, function(params)...
![](https://img-blog.csdnimg.cn/bdd4f87824db4c649b5bdfdeea33ffda.png)
《智能网联汽车自动驾驶功能测试规程》
一、 编制背景 2018 年4 月12 日,工业和信息化部、公安部、交通运输部联合发布《智能网联汽车道路测试管理规范(试行)》(以下简称《管理规范》),对智能网联汽车道路测试申请、审核、管理以及测试主体、测试驾驶人和测试车辆要求等…...
![](https://img-blog.csdnimg.cn/f6e4e4d43d504585a39b3e8918e3ca64.png)
NVIDIA CUDA Win10安装步骤
前言 windows10 版本安装 CUDA ,首先需要下载两个安装包 CUDA toolkit(toolkit就是指工具包)cuDNN 1. 安装前准备 在安装CUDA之前,需要完成以下准备工作: 确认你的显卡已经正确安装,在设备管理器中可以看…...
![](https://img-blog.csdnimg.cn/cfe9410b8dd6416fb39eff19d8287e28.png)
Elasticsearch、Kibana以及Java操作ES 的快速使用
docker 安装elastic search 、 kibana(可视化管理elastic search) docker pull elasticsearch:7.12.1 docker pull kibana:7.12.1创建docker自定义网络 docker自定义网络可以使得容器之间使用容器名网络互连,默认的网络不会有这功能。 一定…...
![](https://www.ngui.cc/images/no-images.jpg)
逐鹿人形机器人,百度、腾讯、小米卷起来
长期不温不火的人形机器人产业迎来新风口,技术显著提升、新品层出不穷、资本投资态度也逐渐好转。 8月18日,2023世界机器人大会博览会正式开放,全面展示了机器人行业的新技术、新产品和新应用。据悉,此次展会展览总面积达4.5万平…...
![](https://www.ngui.cc/images/no-images.jpg)
AndroidStudio推荐下载和配置
1、推荐下载链接 Download Android Studio & App Tools - Android Developers 2、gradle配置案例 // Top-level build file where you can add configuration options common to all sub-projects/modules.buildscript {repositories {maven { url https://maven.aliyun.…...
![](https://www.ngui.cc/images/no-images.jpg)
mysql异常占用资源排查
通过执行日志与连接信息排查 查看是否开启日志记录 mysql> show global variables like %general%; --------------------------------- | Variable_name | Value | --------------------------------- | general_log | OFF | | general_log_file…...
![](https://www.ngui.cc/images/no-images.jpg)
requests 库:发送 form-data 格式的 http 请求 (python)
安装 requests-toolbelt !pip install requests-toolbeltdemo from requests_toolbelt import MultipartEncoder import requestsm MultipartEncoder(fields{query: """第一,向量化匹配是有能力上限的。搜索引擎实现语义搜索已经是好几年的事情了…...
![](https://img-blog.csdnimg.cn/40520506b62e4f64a8e758fc448d8b68.png)
行测图形推理规律(一)元素组成
题库:粉笔网题库 (fenbi.com) 不知道和测评的行测题库是不是一样的,但是总结的规律应该是一样的。 规律并不唯一,题库的答案也只是参考答案,切勿当杠精,你觉得你的规律更合适就别管。本人所归纳的规律仅代表本人想法…...
![](https://img-blog.csdnimg.cn/af21faeae6ac4725b373bc2b4bebb59f.png)
【python爬虫】13.吃什么不会胖(爬虫实操练习)
文章目录 前言项目实操明确目标分析过程代码实现 前言 吃什么不会胖——这是我前段时间在健身时比较关注的话题。 相信很多人,哪怕不健身,也会和我一样注重饮食的健康,在乎自己每天摄入的食物热量。 不过,生活中应该很少有人会…...
![](https://www.ngui.cc/images/no-images.jpg)
深入理解联邦学习——联邦学习与现有理论的区别与联系
分类目录:《深入理解联邦学习》总目录 作为一种全新的技术,联邦学习在借鉴一些成熟技术的同时也具备了一定的独创性。下面我们就从多个角度来阐释联邦学习和其他相关概念之间的关系。 联邦学习与差分隐私理论的区别 联邦学习的特点使其可以被用来保护用…...
![](https://img-blog.csdnimg.cn/img_convert/46a2618df85d860719dc0b38766308d7.jpeg)
基于Python+DenseNet121算法模型实现一个图像分类识别系统案例
目录 介绍在TensorFlow中的应用实战案例最后 一、介绍 DenseNet(Densely Connected Convolutional Networks)是一种卷积神经网络(CNN)架构,2017年由Gao Huang等人提出。该网络的核心思想是密集连接,即每…...
![](/images/no-images.jpg)
健康服务管理中心/昆明网站seo优化
PHP三元运算符的使用方法技巧PHP是一种 HTML 内嵌式的语言,是一种在服务器端执行的嵌入HTML文档的脚本语言,语言的风格有类似于C语言,被广泛地运用。下面是小编为大家搜索整理的PHP三元运算符的使用方法技巧,希望能给大家带来帮助…...
![](https://img-blog.csdnimg.cn/img_convert/766f115c6ea7b1116c776c6568d13ef8.png)
公众号建设成小说网站/免费建站建站abc网站
今天我们继续介绍关于TCP异常情况的内容。本篇文章接着上一篇文章,前面分析了在连接过程中的各种异常,本篇文章重点介绍的是在数据传输过程中的各种异常,以及出现异常后的TCP连接的情况。为了便于大家理解本文,这里我们将上一篇文…...
![](/images/no-images.jpg)
连云港网站建设制作/百度云手机登录入口
我的项目文件层次是:项目名称/include、output、src src/admin、stu、tch、common 最外层的Makefile: DEBUG yMYDEBUG DEBUGifeq ($(DEBUG),y)DEBFLAGS -O -g -D$(MYDEBUG)elseDEBFLAGS endif PRJ_HOME : $(shell pwd)SOURCES : $(wildcard *.c)OBJEC…...
![](https://images2015.cnblogs.com/blog/637423/201510/637423-20151026180135904-2074295771.jpg)
动态网站搭建方案/google下载安装
目前接触到一个需求,需要全球主要国家的选择以及语言的选择,如下图: 这是国家选项 这是语言的选项: 很简单有木有? 本来打算直接给文件,但是好像没有文件上传,所以就提供一个思路和代码…...
![](https://img-blog.csdnimg.cn/img_convert/820e69236cb49f9bd7e1b211b83e5750.png)
网站项目建设与管理论文/北京网络营销策划公司
智能会议室是钉钉官方的免费应用,智能会议室属于企业会议管理系统,帮助企业高效有序组织会议,提升会议室使用效率。[灵光一闪]一、如何新建会议室?企业开通智能会议室后,管理员可以添加并录入会议室信息哦手机端&#…...
![](https://img-blog.csdnimg.cn/img_convert/bd9e08da9ecfbb301110c12ad0063813.png)
宝塔建站详细教程/今日竞彩足球最新比赛结果查询
大家好,今天我们学习【马上学tensorflow 2.0】之 神经网络的“齿轮”:张量运算。我们 马上学三点 ,张量运算介绍张量点积和几何意义深度学习几何意义大家可以点击下面的“ 了解更多 ”,或搜索“ 马上学123 ”,在线观看…...