当前位置：首页 > news >正文

爬虫新闻网站以湖南法治报为例（含详细注释） V1.0

news 2026/2/8 10:50:42

目标网站：湖南法治报

爬取目的：为了获取某一地区更全面的在湖南法治报已发布的宣传新闻稿，同时也让自己的工作更便捷

环境：Pycharm2021，Python3.10，

安装的包：requests，csv，bs4

v1.0 版本特点：获取指定页数的新闻数据，筛选出含有想要查找的的关键词的新闻内容，并存储起来。

1 首先分析网页

（查看数据返回方式，发现网站不用像红网那样设置各种headers了，可以直接爬）

发现在这个页面只有文章标题和发布时间，以及文章链接的信息（当然文章有图片的就还有图片信息）

2 再看文章内容页面

（像我就只要文字部分就行了，不需要图片）

3 运行结果：

爬虫新闻网站以湖南法治报为例 V1.0

4 具体分析和实现请看代码（含详细注释）：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2024/4/4 21:36
# @Author : LanXiaoFang
# @Site :
# @File : efaw.py
# @Software: PyCharm
import csv
import requests
from bs4 import BeautifulSoup# 由于发现湖南法治报没有设置反爬机制，因为我们不用反反爬了，可以直接爬数据了
# 市州动态 下的对应市州的编号
szId = {"长沙": "14129", "株洲": "14130", "湘潭": "14223", "衡阳": "14224", "邵阳": "14225", "岳阳": "14226", "常德": "14227","张家界": "14228", "益阳": "14229", "郴州": "14230", "永州": "14231", "怀化": "14232", "娄底": "14233", "湘西": "14234"}# 输入你想要获取的湖南省下的哪一市州的新闻 比如 湖南省下的永州市，直接输入 永州 即可
sz = "永州"
# 根据输入的湖南省下的市州 得到对应的市州编号 再拼接入链接
url = "http://www.efaw.cn/list/" + szId[sz]
# 输入你想要的关键词 比如 双牌、蓝山、宁远、新田、零陵
search_keyword = '双牌'
# 标题就含有关键词的计数器
title_Yes_Num = 0
# 标题不含有关键词但是内容含有关键词的计数器
title_No_Num = 0
# 新闻来源级别
level = "省级"
""" 
爬虫思路：
首先最开始是打开要爬取的网站，然后分析怎样获取需要的数据最完整和便捷
一开始看到搜索其实是想直接搜关键词获取新闻的，但是发现通过搜索框获得到新闻数据不如市州动态下的全面，所以还是打算一条一条新闻比对是否符合自定义关键词
1 首先进入市州动态获取到某市州动态下的所有新闻数据
2 根据具体新闻链接进入新闻页面，获取到新闻信息
"""# # 创建CSV文件并写入头部信息
with open(search_keyword + '湖南法治报_标题含关键词.csv', 'w', newline='', encoding='utf-8') as csvfile:writer = csv.writer(csvfile)writer.writerow(['序号', '新闻名称', '新闻来源', '媒体级别', '发布日期', '原文链接', '来源'])  # 根据实际情况定义列名
with open(search_keyword + '湖南法治报_标题不含内容含关键词.csv', 'w', newline='', encoding='utf-8') as csvfile:writer = csv.writer(csvfile)writer.writerow(['序号', '新闻名称', '新闻来源', '媒体级别', '发布日期', '原文链接', '来源'])  # 根据实际情况定义列名# http://www.efaw.cn/list/14231?page=1
page = 1
while page <= 20:  # 从这里修改数字以控制要多少页的新闻内容，,page<=20page从1开始一直到20# 拼接出每一页的urlurl_page = url + "?page=" + str(page)html_all = requests.get(url_page)html_all.encoding = 'utf-8'print(page, '页', url_page)if html_all.status_code == 200:soups = BeautifulSoup(html_all.text, 'html.parser')article_info = soups.find_all('ul', class_='list_content')for i in article_info:result_info = i.find_all('div')for art in result_info:article_href = art.a.get('href')  # 文章链接print(article_href)article_title = art.a.get('title')  # 文章标题article_time = art.i.text  # 文章发布时间  显示为：发布时间：2024-04-02 10:08:03# 因为只要年月日部分的时间，因此把一些不需要的字符去掉article_time = article_time[2+article_time.index('间：'):]article_time = article_time[:article_time.index(':')-2]# 从文章内容中获取到来源html_article_info_sk = requests.get(article_href)html_article_info_sk.encoding = 'utf-8'if html_article_info_sk.status_code == 200:soups_sk = BeautifulSoup(html_article_info_sk.text, 'html.parser')article_info_sk = soups_sk.find_all('div', class_='video_left')# 其实在这里我想获取到具体的来源，这一段因为在新闻详情页面，如果 来源 为 双牌县优化办 ，那么这条新闻就是优化办推过去的spxq_title_source = soups_sk.find('div', class_='spxq_title_source').text# 文章信息来源 显示为： 来源：湖南法治报atricle_source = spxq_title_source[spxq_title_source.index('来源：')+3:spxq_title_source.index('|')]# 在这里可以从标题判断是否含有搜索的关键词search_keyword，如果有则可以直接存储这条新闻信息，如果没有则继续查看新闻内容，看是否含有关键词信息if search_keyword in article_title:  # 标题判断含有搜索的关键词search_keywordtitle_Yes_Num += 1with open(search_keyword + '湖南法治报_标题含关键词.csv', 'a', newline='', encoding='utf-8') as csvfile:writer = csv.writer(csvfile)writer.writerow([title_Yes_Num, article_title, "湖南法治报", level, article_time, article_href, atricle_source])print("Yes Tile have SK !!!!!", title_Yes_Num)print(title_Yes_Num, '--title:', article_title, 'time:', article_time, 'href:', article_href, 'source:', atricle_source)else:  # 标题判断不含搜索的关键词search_keywordif search_keyword in article_info_sk:title_No_Num += 1with open(search_keyword + '湖南法治报_标题不含内容含关键词.csv', 'a', newline='', encoding='utf-8') as csvfile:writer = csv.writer(csvfile)writer.writerow([title_No_Num, article_title, "湖南法治报", level, article_time, article_href, atricle_source])print("Yes Content have SK !!!!!", article_info_sk)print(title_No_Num, '--title:', article_title, 'time:', article_time, 'href:', article_href, 'source:', atricle_source)page += 1

爬虫新闻网站以湖南法治报为例（含详细注释） V1.0

目标网站：湖南法治报爬取目的：为了获取某一地区更全面的在湖南法治报已发布的宣传新闻稿，同时也让自己的工作更便捷环境：Pycharm2021，Python3.10， 安装的包：requests，csv&#xff…...

编程日记 2024/4/6 21:08:42

物联网实战--入门篇之(十)安卓QT--后端开发

目录一、项目配置二、MQTT连接三、数据解析四、数据更新五、数据发送六、指令下发一、项目配置按常规新建一个Quick空项目后，我们需要对项目内容稍微改造、规划下。首先根据我们的需要在.pro文件内添加必要的模块，其中quick就是qml了&…...

编程日记 2024/4/6 21:07:41

[Java]网络编程

网络编程概述计算机网络： 把分布在不同地理区域的具有独立功能的计算机,通过通信设备与线路连接起来，由功能完善的软件实现资源共享和信息传递的系统。 Java是 Internet 上的语言，它从语言级上提供了对网络应用程序的支持，程序…...

编程日记 2024/4/6 21:06:40

重读Java设计模式: 适配器模式解析

引言在软件开发中，经常会遇到不同接口之间的兼容性问题。当需要使用一个已有的类，但其接口与我们所需的不兼容时，我们可以通过适配器模式来解决这一问题。适配器模式是一种结构型设计模式，它允许接口不兼容的类之间进行合作。本…...

编程日记 2024/4/6 21:05:38

MySQL面试题系列-9

MySQL是一个关系型数据库管理系统，由瑞典 MySQL AB 公司开发，属于 Oracle 旗下产品。MySQL是最流行的关系型数据库管理系统之一，在 WEB 应用方面，MySQL是最好的RDBMS (Relational Database Management System，关系数据…...

编程日记 2024/4/6 21:04:37

书生·浦语训练营二期第二次笔记

文章目录 1. 部署 InternLM2-Chat-1.8B 模型进行智能对话1.1 配置环境1.2 下载 InternLM2-Chat-1.8B 模型 2. 实战：部署实战营优秀作品八戒-Chat-1.8B 模型2.1 配置基础环境2.2 使用 git 命令来获得仓库内的 Demo 文件：2.3 下载运行 Chat-八戒 Demo 3. …...

编程日记 2024/4/6 21:03:36

python_3

文章目录题目运行结果模式A模式B模式C模式D 题目 mode input("请选择模式:") n int(input("请输入数字:"))if mode "A" or mode "a":# 模式A n:输入的层数 i:当前的层数# 每行数字循环次数 ifor i in range(1, n 1):for j in r…...

编程日记 2024/4/6 21:01:33

【Python】使用Apache Tika和Python实现zip、csv、xls等多格式文件文本内容提取

时间的电影结局才知道原来大人已没有童谣最后的叮咛最后的拥抱我们红着眼笑我们都要把自己照顾好好到遗憾无法打扰好好的生活好好的变老好好假装我已经把你忘掉 🎵 五月天《好好》在进行数据分析、搜索引擎优化或任何需要处理大量…...

编程日记 2024/4/6 20:59:31

C语言如何将多维数组名作为函数参数？

一、问题⼦函数执⾏时，整个多维数组是由主函数决定的，这时就要把多维数组的数组名作为函数参数传递给⼦函数。那么在C程序中，怎样将多维数组名作函数参数进⾏传递？ 二、解答以⼆维数组为例，其格式如下。形参定义&…...

编程日记 2024/4/6 20:54:26

2013年认证杯SPSSPRO杯数学建模C题(第二阶段)公路运输业对于国内生产总值的影响分析全过程文档及程序

2013年认证杯SPSSPRO杯数学建模 C题公路运输业对于国内生产总值的影响分析原题再现： 交通运输作为国民经济的载体，沟通生产和消费，在经济发展中扮演着极其重要的角色。纵观几百年来交通运输与经济发展的相互关系，生产水平越高…...

编程日记 2024/4/6 20:53:24

《LeetCode力扣练习》代码随想录——二叉树（合并二叉树---Java）

《LeetCode力扣练习》代码随想录——二叉树（合并二叉树—Java） 刷题思路来源于代码随想录 617. 合并二叉树二叉树-前序遍历 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode…...

编程日记 2024/4/6 20:51:22

openstack云计算（二）——使用Packstack安装器安装一体化OpenStack云平台

初步掌握OpenStack快捷安装的方法。掌握OpenStack图形界面的基本操作。一【准备阶段】 （1）准备一台能够安装OpenStack的实验用计算机，建议使用VMware虚拟机。 （2）该计算机应安装CentOS 7，建议采用CentO…...

编程日记 2024/4/6 20:50:21

Flutter Don‘t use ‘BuildContext‘s across async gaps.

Flutter提示Don‘t use ‘BuildContext‘s across async gaps.的解决办法—flutter里state的mounted属性...

编程日记 2024/4/6 20:44:17

基于SSM+Jsp+Mysql的个性化影片推荐系统

开发语言：Java框架：ssm技术：JSPJDK版本：JDK1.8服务器：tomcat7数据库：mysql 5.7（一定要5.7版本）数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包…...

编程日记 2024/4/6 20:43:16

循环队列的实现及应用——桶排序bucket_sort、基数排序radix_sort

一、循环队列的实现代码解释 1、完成初始化 2、定义方法 3、测试实例 4、完整代码 class AQueue:def __init__(self, size=10):self.__mSize = sizeself.__front=0self.__rear = 0self.__listArray = [None] * size#清空元素def clear(self):self.__front = 0self.__rear =…...

编程日记 2024/4/6 20:42:15

ubuntu16如何使用高版本cmake

1.引言最近在尝试ubuntu16.04下编译开源项目vsome，发现使用apt命令默认安装cmake的的版本太低。如下最终得知，ubuntu16默认安装确实只能到3.5.1。解决办法只能是源码安装更高版本。 2.源码下载3.20 //定位到opt目录 cd /opt 下载 wget https://cmak…...

编程日记 2024/4/6 20:39:11

电商-广告投放效果分析（KMeans聚类、数据分析-pyhton数据分析

电商-广告投放效果分析（KMeans聚类、数据分析） 文章目录电商-广告投放效果分析（KMeans聚类、数据分析）项目介绍数据数据维度概况数据13个维度介绍导入库，加载数据数据审查相关性分析数据处理建立模型聚类结果特征分析…...

编程日记 2024/4/6 20:38:10

练习 16 Web [极客大挑战 2019]LoveSQL

extractvalue(1,concat(‘~’, (‘your sql’) ) )报错注入，注意爆破字段的时候表名有可能是table_name不是table_schema 有登录输入框常规尝试一下常规的万能密码，返回了一个“admin的密码”： Hello admin！ Your password is…...

编程日记 2024/4/6 20:37:09

C++——栈和队列容器

前言：这篇文章我们将栈和队列两个容器放在一起进行分享，因为这两个要分享的知识较少，而且两者在结构上有很多相似之处，比如栈只能在栈顶操作，队列只能在队头和队尾操作。不同于前边所分享的三种容器，这篇…...

编程日记 2024/4/6 20:33:06

Java集合（个人整理笔记）

目录 1. 常见的集合有哪些？ 2. 线程安全的集合有哪些？线程不安全的呢？ 3. Arraylist与 LinkedList 异同点？ 4. ArrayList 与 Vector 区别？ 5. Array 和 ArrayList 有什么区别？什么时候该应 Array而不是…...

编程日记 2024/4/6 20:31:04

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（二）

HoST框架核心实现方法详解 - 论文深度解读（第二部分）《Learning Humanoid Standing-up Control across Diverse Postures》系列文章：论文深度解读 + 算法与代码分析（二）作者机构：上海AI Lab, 上海交通大学, 香港大学, 浙江大学, 香港中文大学论文主题：人形机器人…...

编程新知 2026/1/20 19:54:35

ESP32读取DHT11温湿度数据

芯片：ESP32 环境：Arduino 一、安装DHT11传感器库红框的库，别安装错了二、代码注意，DATA口要连接在D15上 #include "DHT.h" // 包含DHT库#define DHTPIN 15 // 定义DHT11数据引脚连接到ESP32的GPIO15 #define D…...

编程新知 2026/1/30 8:46:45

ffmpeg（四）：滤镜命令

FFmpeg 的滤镜命令是用于音视频处理中的强大工具，可以完成剪裁、缩放、加水印、调色、合成、旋转、模糊、叠加字幕等复杂的操作。其核心语法格式一般如下： ffmpeg -i input.mp4 -vf "滤镜参数" output.mp4或者带音频滤镜： ffmpeg…...

编程新知 2026/2/4 23:47:47

【android bluetooth 框架分析 04】【bt-framework 层详解 1】【BluetoothProperties介绍】

1. BluetoothProperties介绍 libsysprop/srcs/android/sysprop/BluetoothProperties.sysprop BluetoothProperties.sysprop 是 Android AOSP 中的一种系统属性定义文件（System Property Definition File），用于声明和管理 Bluetooth 模块相…...

编程新知 2025/11/22 12:02:51

MySQL 8.0 OCP 英文题库解析（十三）

Oracle 为庆祝 MySQL 30 周年，截止到 2025.07.31 之前。所有人均可以免费考取原价245美元的MySQL OCP 认证。从今天开始，将英文题库免费公布出来，并进行解析，帮助大家在一个月之内轻松通过OCP认证。本期公布试题111~120 试题1…...

编程新知 2026/1/31 7:25:57

多种风格导航菜单 HTML 实现（附源码）

下面我将为您展示 6 种不同风格的导航菜单实现，每种都包含完整 HTML、CSS 和 JavaScript 代码。 1. 简约水平导航栏 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport&qu…...

编程新知 2026/2/2 2:49:11

根据万维钢·精英日课6的内容，使用AI（2025）可以参考以下方法：

根据万维钢精英日课6的内容，使用AI（2025）可以参考以下方法： 四个洞见模型已经比人聪明：以ChatGPT o3为代表的AI非常强大，能运用高级理论解释道理、引用最新学术论文，生成对顶尖科学家都有用的…...

编程新知 2026/1/10 1:08:51

全志A40i android7.1 调试信息打印串口由uart0改为uart3

一，概述 1. 目的将调试信息打印串口由uart0改为uart3。 2. 版本信息 Uboot版本：2014.07； Kernel版本：Linux-3.10； 二，Uboot 1. sys_config.fex改动使能uart3(TX:PH00 RX:PH01)，并让boo…...

编程新知 2026/2/5 6:28:09

Typeerror: cannot read properties of undefined (reading ‘XXX‘)

最近需要在离线机器上运行软件，所以得把软件用docker打包起来，大部分功能都没问题，出了一个奇怪的事情。同样的代码，在本机上用vscode可以运行起来，但是打包之后在docker里出现了问题。使用的是dialog组件，…...

编程新知 2025/9/24 3:05:06

基于Java Swing的电子通讯录设计与实现：附系统托盘功能代码详解

JAVASQL电子通讯录带系统托盘一、系统概述本电子通讯录系统采用Java Swing开发桌面应用，结合SQLite数据库实现联系人管理功能，并集成系统托盘功能提升用户体验。系统支持联系人的增删改查、分组管理、搜索过滤等功能，同时可以最小化到系统…...

编程新知 2025/10/4 20:58:43

1 首先分析网页

2 再看文章内容页面

3 运行结果：

4 具体分析和实现请看代码（含详细注释）：

相关文章：