当前位置：首页 > news >正文

Node.js 实战：爬取百度新闻并序列化 - 完整教程

news 2026/2/8 6:55:26

很多时候我们需要爬取一些公开的网页内容来做一些数据分析和统计。而多数时候，大家会用到python ，因为实现起来很方便。但是其实Node.js 用来爬取网络内容，也是非常强大的。

今天我向大家介绍一下我自己写的一个百度新闻的爬虫，可以根据关键词爬取相应的资讯，并将内功格式化。

源码已经发布在github上：GitHub - guangboshushu/getBaiduNews: A crawler to fetch Baidu News data

代码可直接使用，但仅供大家学习使用。

这个爬虫的代码是用来爬取百度新闻的，使用了 axios 和 cheerio 这两个库来处理请求和解析 HTML 页面。下面是分段介绍每个部分的功能：

1. 引入依赖包

const axios = require('axios'); 
const cheerio = require('cheerio');

axios: 用于发送 HTTP 请求，这里用来向百度发送 GET 请求获取新闻页面内容。
cheerio: 用于解析返回的 HTML 内容，类似于 jQuery，可以通过选择器查找元素并提取数据。
Cheerio 是一个强大的 HTML 解析工具，它类似于 jQuery，可以通过选择器来查找元素并提取数据。cheerio 会将返回的 HTML 内容解析成一个类似 DOM 的结构，并将其转化为一个 jQuery 风格的对象，可以使用标准的 DOM 操作方法（如 .find()、.text()、.attr() 等）对 HTML 元素进行操作和提取。由于它基于 jQuery 的 API，使用起来非常直观，且性能上比浏览器中的 DOM 操作要高效很多，特别适合用于服务器端的 HTML 内容解析。

更准确的细节：
HTML 解析：cheerio 并不像浏览器中的 DOM 那样提供完整的浏览器环境，它专注于快速解析 HTML 文本，并提供类似 jQuery 的接口供操作。这使得它在 Node.js 环境中非常轻量且高效。
对象模型：cheerio 并不会生成完整的 DOM 树，而是将 HTML 解析成一个类似 DOM 结构的对象，便于操作和查询。它的 API 是基于 jQuery 核心的，使用方法和操作非常熟悉。
序列化和提取：你可以通过 cheerio 序列化或遍历 HTML 标签，提取你需要的数据，比如文本、属性值，或者修改 HTML 元素。

2. 自定义函数 `findParentDivOfH3`

这个函数是用来解析百度新闻的内容的。在解析内容前，需要分析百度的网页结构，打开浏览器访问网页，然后查看源码即可。这里需要稍微有一点html的尝试，比如dom的结构 css的标签等等。这些挺简单的。

比如按照关键词查找小米手机

网页结构如下，这里现找到标题<h3>的标签，再往上找到它的父DOM，就是一条完整的News DOM。

需要注意的是如果以后百度新闻网页结构变化了需要调整。

下面是函数源码：

function findParentDivOfH3(html) {const $ = cheerio.load(html);const results = [];$('h3').each(function () {const parentDiv = $(this).closest('div');if (parentDiv.length > 0) {const title = $(this).find("a[aria-label^='标题：']").text().trim();const titleUrl = $(this).find("a[aria-label^='标题：']").attr("href");const leftImgSrc = parentDiv.find("img").first().attr("src");const hasImg = leftImgSrc ? true : false;const summary = parentDiv.find(".c-font-normal.c-color-text").text().trim();const dispTime = parentDiv.find(".c-color-gray2.c-font-normal").text().trim();const sourceIcon = parentDiv.find(".source-img_33bs5").attr("src");const sourceName = parentDiv.find(".news-source_Xj4Dv span.c-color-gray").text().trim();const rtses = parentDiv.find(".news-source_Xj4Dv span.c-color-gray").text().trim();results.push({title,titleUrl,leftImgSrc,hasImg,summary,dispTime,sourceIcon,rtses,sourceName});}});return results;
}

功能:

该函数接收一个 HTML 字符串，使用 cheerio 来解析 HTML 内容。
查找所有 <h3> 标签，通过 .closest('div') 获取每个 <h3> 标签的父级 <div> 元素。
从每个父 <div> 元素中提取出以下信息：
- 新闻标题（title）
- 新闻链接（titleUrl）
- 左侧图片的 src（leftImgSrc）
- 是否有图片（hasImg）
- 摘要（summary）
- 发布时间（dispTime）
- 来源图标（sourceIcon）
- 来源名称（sourceName）
- 转载数（rtses）
将这些信息存入 results 数组，并返回。

3. 获取百度新闻的函数 `getBdiduNews`


const getBdiduNews = (keyWord) => {const _keyWord = encodeURIComponent(keyWord);const cookies = 'Here are your cookies if necessary'const url = `https://www.baidu.com/s?rtt=1&bsst=1&cl=2&tn=news&rsv_dl=ns_pc&word=${_keyWord}`;return axios.get(url, {headers: {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36','Cookie': cookies}}).then(response => {return (findParentDivOfH3(response.data));}).catch(error => {console.error('Error:', error);});
}

功能:

getBdiduNews 函数接收一个关键词 keyWord，然后将其进行 URL 编码（encodeURIComponent），用于构造百度新闻的查询 URL。
发送一个 GET 请求到百度新闻搜索页面，使用 axios 发送请求，设置 User-Agent 和 Cookie 作为请求头（其中 Cookie 是用于模拟浏览器请求的，避免百度反爬虫机制的限制）。
请求成功后，调用 findParentDivOfH3 函数来解析返回的 HTML 内容，并提取新闻信息。
如果请求出错，则在控制台输出错误信息。

4. 导出模块

module.exports = getBdiduNews;

这行代码将 getBdiduNews 函数导出，使得其他文件可以使用 require 引入并调用这个函数。

5. 调用示例

getBdiduNews('小米手机').then(res => {console.log(res)
});

这里调用 getBdiduNews 函数，传入关键词 '小米手机'，然后使用 .then() 获取爬取结果并打印出来。
结果就出来了：

总结：

该爬虫的功能是从百度新闻中抓取关键词相关的新闻信息，并提取每条新闻的标题、链接、摘要、图片、发布时间、来源等信息。
使用了 axios 发送请求，cheerio 解析 HTML 内容，且通过自定义函数处理页面中的数据提取。

希望这个分段介绍能帮助你更好地理解代码。这个爬虫是给你用来学习的，记得要注意合法性，避免侵犯百度的服务条款。

Node.js 实战：爬取百度新闻并序列化 - 完整教程

很多时候我们需要爬取一些公开的网页内容来做一些数据分析和统计。而多数时候，大家会用到python ，因为实现起来很方便。但是其实Node.js 用来爬取网络内容，也是非常强大的。今天我向大家介绍一下我自己写的一个百度新闻的爬虫，可…...

编程日记 2024/12/4 21:12:05

106.【C语言】数据结构之二叉树的三种递归遍历方式

目录 1.知识回顾 2.分析二叉树的三种遍历方式 1.总览 2.前序遍历 3.中序遍历 4.后序遍历 5.层序遍历 3.代码实现 1.准备工作 2.前序遍历函数PreOrder 测试结果 3.中序遍历函数InOrder 测试结果 4.后序遍历函数PostOrder 测试结果 4.底层分析 1.知识回顾在99.…...

编程日记 2024/12/4 21:11:04

qt QToolButton详解

1、概述 QToolButton是Qt框架中的一个控件，它继承自QAbstractButton。QToolButton通常用于工具栏（QToolBar）中，提供了一种快速访问命令或选项的方式。与普通的QPushButton按钮相比，QToolButton通常只显示一个图标而不…...

编程日记 2024/12/4 21:10:03

2024年大热，Access平替升级方案，也适合Excel用户

欢迎各位看官，您来了，就对了！ 您多半是Access忠实粉丝，至少是excel用户，亦或是WPS用户吧。那就对了，今天的分享肯定对您有用。本文1100字，阅读时长2分50秒！ 现实总是不尽人意&am…...

编程日记 2024/12/4 21:04:58

探索Scala的模式匹配：身份证识别与等级判定！！！ #Scala # scala #匹配模式

在Scala编程语言中，模式匹配是一个强大且表达力丰富的特性，它允许我们以声明式的方式处理多种情况。今天，我们将通过两个有趣的例子来展示Scala模式匹配的魅力：身份证号识别和等级判定。 1. 身份证号识别：定位你的家乡…...

编程日记 2024/12/4 21:00:55

python数据分析之爬虫基础：爬虫介绍以及urllib详解

前言在数据分析中，爬虫有着很大作用，可以自动爬取网页中提取的大量的数据，比如从电商网站手机商品信息，为市场分析提供数据基础。也可以补充数据集、检测动态变化等一系列作用。可以说在数据分析中有着相当大的作用！…...

编程日记 2024/12/4 20:56:51

Ubuntu相关资料 https://www.pugetsystems.com/labs/hpc/ubuntu-22-04-server-autoinstall-iso/#Step_2_Unpack_files_and_partition_images_from_the_Ubuntu_2204_live_server_ISO https://launchpad.net/ubuntu/source/squashfs-tools/1:4.6.1-1build1 sudo tar -xf my_compu…...

编程日记 2024/12/4 20:55:49

力扣C语言刷题记录（二）移除元素

给你一个数组 nums 和一个值 val，你需要原地移除所有数值等于 val 的元素。元素的顺序可能发生改变。然后返回 nums 中与 val 不同的元素的数量。假设 nums 中不等于 val 的元素数量为 k，要通过此题，您需要执行以下操作： 更改…...

编程日记 2024/12/4 20:54:47

【Vue3】【Naive UI】＜NAutoComplete＞标签

【Vue3】【Naive UI】标签 <NAutoComplete> 是 Naive UI 库中的一个组件，用于实现自动完成或联想输入功能。它允许用户在输入时看到与当前输入匹配的建议列表，从而帮助用户更快地填写表单字段。这个组件通常用于搜索框、地址输入等场景&#xff…...

编程日记 2024/12/4 20:53:46

【Halcon】使用均值滤波出现假边怎么办？

在图像处理过程中，均值滤波是一种常见的平滑技术，用于减少图像中的噪声。然而，当应用于具有显著边缘或对比度变化的图像时，均值滤波可能会导致“假边”现象，即原本不存在的边缘在滤波后变得明显。以下是如何在Halcon中处理这一问题，并提供一个完整的示例代码。示例背景…...

编程日记 2024/12/4 20:52:45

Flask+Minio实现断点续传技术教程

什么是MinIO MinIO是一个高性能的分布式对象存储服务，与Amazon S3 API兼容。它允许用户存储和检索任意规模的数据，非常适合于使用S3 API的应用程序。MinIO支持多租户存储，提供高可用性、高扩展性、强一致性和数据持久性。它还可以作为软件定义…...

编程日记 2024/12/4 20:46:38

JAVA设计模式，动态代理模式

动态代理（Dynamic Proxy）是Java中一种非常有用的设计模式。它允许在运行时创建一个实现了一组给定接口的新类。这种模式主要用于当需要为某个对象提供一个代理以控制对该对象的访问时。通过这种方式，可以添加额外的功能，如事务管理…...

编程日记 2024/12/4 20:45:37

HTML 快速上手

目录一. HTML概念二. HTML标签 1. 标题标签 2. 段落标签 3. 换行标签 4. 图片标签 5. 超链接标签 6. 表格标签 7. 表单标签 7.1 form 标签 7.2 input 标签 (1) 文本框 (2) 单选框 (3) 密码框 (4) 复选框 (5) 普通按钮 (6) 提交按钮 8. select标签 9. 无语义…...

编程日记 2024/12/4 20:44:36

【计算机视觉算法与应用】模板匹配、图像配准

目录 1. 基于灰度值的模板匹配 2. 基于相关性的模板匹配 3. 基于形状的模板匹配 4. 基于组件的模板识别 5. 基于形变的模板匹配 6. 基于描述符的模板匹配 7. 基于点的模板匹配性能比较模板匹配的算法实现需要结合具体需求和应用场景来选择方法。以下是基于 OpenCV 的…...

编程日记 2024/12/4 20:43:33

【Linux】设计文件系统（C实现）

要求： (1)可以实现下列几条命令 dir 列文件目录 create 创建文件 delete 删除文件 read 读文件 write 写文件 (2)列目录时要列出文件名、存取权限（八进制）、文件长度、时间（创建时间，修改时间以及…...

编程日记 2024/12/4 20:41:30

详解Rust多线程编程

文章目录多线程模型创建和管理线程自定义线程行为线程传递数据线程间通信线程池错误处理与线程Condvar(条件变量)无锁并发高性能并发库 Rust的多线程编程提供了一种安全、高效的方式来进行并发操作。Rust的并发性设计原则之一是确保线程安全，同时避免运行时的开销&…...

编程日记 2024/12/4 20:33:24

el-upload上传多个文件，一次请求，Django接收

1、:file-list"fileList" :on-change"handleChange" 将文件赋值到fileList 2、 :auto-upload"false" 手动触发上传写个按钮点击执行这个 this.$refs.upload.submit(); 3、自己写上传，不会再触发上传成功或失败回调 4、 request.FI…...

编程日记 2024/12/4 20:29:19

Python实现网站资源批量下载【可转成exe程序运行】

Python实现网站资源批量下载【可转成exe程序运行】背景介绍解决方案转为exe可执行程序简单点说详细了解下声明背景介绍发现宣讲家网的PPT很好，作为学习资料使用很有价值，所以想下载网站的PPT课件到本地，但是由于网站限制，一…...

编程日记 2024/12/4 20:27:12

《JavaScript高级程序设计》读书笔记 20

感谢点赞、关注和收藏！ 原始值包装类型为了方便操作原始值，ECMAScript 提供了 3 种特殊的引用类型：Boolean、Number 和 String。每当用到某个原始值的方法或属性时，后台都会创建一个相应原始包装类型的对象，从而暴露…...

编程日记 2024/12/4 20:26:10

ASP.NET Core项目中使用SqlSugar连接多个数据库的方式

之前学习ASP.NETCore及SqlSugar时都是只连接单个数据库处理数据，仅需在Program文件中添加ISqlSugarClient的单例即可（如下代码所示）。 builder.Services.AddSingleton<ISqlSugarClient>(s > {SqlSugarScope sqlSugar new SqlSugar…...

编程日记 2024/12/4 20:22:05

云原生核心技术 (7/12): K8s 核心概念白话解读(上)：Pod 和 Deployment 究竟是什么？

大家好，欢迎来到《云原生核心技术》系列的第七篇！ 在上一篇，我们成功地使用 Minikube 或 kind 在自己的电脑上搭建起了一个迷你但功能完备的 Kubernetes 集群。现在，我们就像一个拥有了一块崭新数字土地的农场主，是时…...

编程新知 2025/12/14 22:32:59

基于大模型的 UI 自动化系统

基于大模型的 UI 自动化系统下面是一个完整的 Python 系统，利用大模型实现智能 UI 自动化，结合计算机视觉和自然语言处理技术，实现"看屏操作"的能力。系统架构设计 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…...

编程新知 2025/10/22 11:16:20

跨链模式：多链互操作架构与性能扩展方案

跨链模式：多链互操作架构与性能扩展方案 ——构建下一代区块链互联网的技术基石一、跨链架构的核心范式演进 1. 分层协议栈：模块化解耦设计现代跨链系统采用分层协议栈实现灵活扩展（H2Cross架构）： 适配层&#xf…...

编程新知 2026/2/5 14:15:13

2025盘古石杯决赛【手机取证】

前言第三届盘古石杯国际电子数据取证大赛决赛最后一题没有解出来，实在找不到，希望有大佬教一下我。还有就会议时间，我感觉不是图片时间，因为在电脑看到是其他时间用老会议系统开的会。手机取证 1、分析鸿蒙手机检材&#x…...

编程新知 2026/1/29 17:12:17

Android 之 kotlin 语言学习笔记三（Kotlin-Java 互操作）

参考官方文档：https://developer.android.google.cn/kotlin/interop?hlzh-cn 一、Java（供 Kotlin 使用） 1、不得使用硬关键字不要使用 Kotlin 的任何硬关键字作为方法的名称或字段。允许使用 Kotlin 的软关键字、修饰符关键字和特殊标识…...

编程新知 2026/2/8 0:33:04

有限自动机到正规文法转换器v1.0

1 项目简介这是一个功能强大的有限自动机（Finite Automaton, FA）到正规文法（Regular Grammar）转换器，它配备了一个直观且完整的图形用户界面，使用户能够轻松地进行操作和观察。该程序基于编译原理中的经典…...

编程新知 2026/1/31 13:13:32

Redis的发布订阅模式与专业的 MQ（如 Kafka, RabbitMQ）相比，优缺点是什么？适用于哪些场景？

Redis 的发布订阅（Pub/Sub）模式与专业的 MQ（Message Queue）如 Kafka、RabbitMQ 进行比较，核心的权衡点在于：简单与速度 vs. 可靠与功能。下面我们详细展开对比。 Redis Pub/Sub 的核心特点它是一个发后…...

编程新知 2025/12/4 2:32:37

GitHub 趋势日报 (2025年06月06日)

📊 由 TrendForge 系统生成 | 🌐 https://trendforge.devlive.org/ 🌐 本日报中的项目描述已自动翻译为中文 📈 今日获星趋势图今日获星趋势图 590 cognee 551 onlook 399 project-based-learning 348 build-your-own-x 320 ne…...

编程新知 2026/1/29 5:21:31

基于Springboot+Vue的办公管理系统

角色： 管理员、员工技术： 后端: SpringBoot, Vue2, MySQL, Mybatis-Plus 前端: Vue2, Element-UI, Axios, Echarts, Vue-Router 核心功能： 该办公管理系统是一个综合性的企业内部管理平台，旨在提升企业运营效率和员工管理水…...

编程新知 2026/1/31 8:55:37

iview框架主题色的应用

1.下载 less要使用3.0.0以下的版本 npm install less2.7.3 npm install less-loader4.0.52./src/config/theme.js文件 module.exports {yellow: {theme-color: #FDCE04},blue: {theme-color: #547CE7} }在sass中使用theme配置的颜色主题，无需引入，直接可…...

编程新知 2026/1/31 9:29:45

Node.js 实战：爬取百度新闻并序列化 - 完整教程

1. 引入依赖包

更准确的细节：

2. 自定义函数 `findParentDivOfH3`

3. 获取百度新闻的函数 `getBdiduNews`

4. 导出模块

5. 调用示例

总结：

相关文章：

Node.js 实战：爬取百度新闻并序列化 - 完整教程

106.【C语言】数据结构之二叉树的三种递归遍历方式

qt QToolButton详解

2024年大热，Access平替升级方案，也适合Excel用户

探索Scala的模式匹配：身份证识别与等级判定！！！ #Scala # scala #匹配模式

python数据分析之爬虫基础：爬虫介绍以及urllib详解

【星海随笔】syslinux

力扣C语言刷题记录（二）移除元素

【Vue3】【Naive UI】＜NAutoComplete＞标签

【Halcon】使用均值滤波出现假边怎么办？

Flask+Minio实现断点续传技术教程

JAVA设计模式，动态代理模式

HTML 快速上手

【计算机视觉算法与应用】模板匹配、图像配准

【Linux】设计文件系统（C实现）

详解Rust多线程编程

el-upload上传多个文件，一次请求，Django接收

Python实现网站资源批量下载【可转成exe程序运行】

《JavaScript高级程序设计》读书笔记 20

ASP.NET Core项目中使用SqlSugar连接多个数据库的方式

云原生核心技术 (7/12): K8s 核心概念白话解读(上)：Pod 和 Deployment 究竟是什么？

基于大模型的 UI 自动化系统

跨链模式：多链互操作架构与性能扩展方案

2025盘古石杯决赛【手机取证】

Android 之 kotlin 语言学习笔记三（Kotlin-Java 互操作）

有限自动机到正规文法转换器v1.0

Redis的发布订阅模式与专业的 MQ（如 Kafka, RabbitMQ）相比，优缺点是什么？适用于哪些场景？

GitHub 趋势日报 (2025年06月06日)

基于Springboot+Vue的办公管理系统

iview框架主题色的应用

1. 引入依赖包

更准确的细节：

2. 自定义函数 findParentDivOfH3

3. 获取百度新闻的函数 getBdiduNews

4. 导出模块

5. 调用示例

总结：

相关文章：

2. 自定义函数 `findParentDivOfH3`

3. 获取百度新闻的函数 `getBdiduNews`