使用Python构建强大的网络爬虫
介绍
网络爬虫是从网站收集数据的强大技术,而Python是这项任务中最流行的语言之一。然而,构建一个强大的网络爬虫不仅仅涉及到获取网页并解析其HTML。在本文中,我们将为您介绍创建一个网络爬虫的过程,这个爬虫不仅可以获取和保存网页内容,还可以遵循最佳实践。无论您是初学者还是经验丰富的开发人员,本指南都将为您提供构建既有效又尊重被抓取网站的网络爬虫所需的工具。
设置您的环境
在深入代码之前,请确保您的计算机上已安装Python。您还需要安装requests和BeautifulSoup库。您可以使用pip来安装它们:
pip install requests beautifulsoup4
基本网络爬虫
让我们首先查看一个简单的网络爬虫脚本。此脚本获取一个网页,提取其标题和文本内容,并将它们保存到文本文件中。
import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
# ...(其余代码)
为什么使用requests和BeautifulSoup?
Requests:此库允许您发送HTTP请求并处理响应,因此在获取网页时至关重要。
BeautifulSoup:此库用于解析HTML并提取所需的数据。
创建输出目录
在进行抓取之前,有一个目录可以保存抓取到的数据非常关键。
if not os.path.exists(output_folder):os.makedirs(output_folder)
为什么这很重要?
创建专用的输出目录有助于组织抓取到的数据,使以后的分析更加容易。
网页遍历
该脚本使用广度优先搜索方法来遍历网页。它维护一个 visited 集合和一个 to_visit 的URL列表。
visited = set()
to_visit = [base_url]
网页遍历的必要性
网页遍历对于从一个网站抓取多个页面非常重要。visited 的集合确保您不会重新访问相同的页面,而 to_visit 的列表则用作您打算抓取的页面的队列。
获取和解析网页
获取网页涉及发送HTTP GET请求,而解析涉及将HTML内容转换为BeautifulSoup对象。
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
为什么获取和解析?
获取可获取原始HTML内容,但解析允许您浏览此内容并提取所需的数据。
数据提取和存储
该脚本从各种HTML标签中提取标题和文本内容,并将它们保存到文本文件中。
title = soup.title.string if soup.title else "未找到标题"
# ...(其余代码)
数据提取和存储的重要性
数据提取是网络爬虫的核心。有效存储这些数据有助于更容易地进行分析和共享。
错误处理和速率限制
该脚本检查HTTP状态码,但缺乏全面的错误处理和速率限制。
if response.status_code != 200:print(f"无法检索{url}。状态码:{response.status_code}")
为什么需要错误处理和速率限制?
错误处理确保您的爬虫可以从意外问题中恢复,而速率限制可以防止您的爬虫过于频繁地访问服务器并被封锁IP地址。
网络爬虫的效用
网络爬虫不仅仅是一个技术练习;它具有现实世界的应用,可以推动业务决策、学术研究等各种领域。
为什么网络爬虫很重要?
数据汇总:网络爬虫允许您将来自各种来源的数据收集到一个地方。这对于市场研究、情感分析或竞争分析特别有用。
自动化:手动收集数据可能会耗费时间并且容易出错。网络爬虫自动化了这个过程,节省了时间并减少了错误。
内容监控:您可以使用网络爬虫来监控竞争对手网站、股价或新闻更新等内容的变化。
机器学习和数据分析:通过网络爬虫收集的数据可以用于训练机器学习模型或进行高级数据分析。
SEO监控:网络爬虫可以帮助跟踪您的网站的SEO表现,为您提供如何提高搜索引擎排名的见解。
强大网络爬虫的高级功能
虽然基本爬虫是功能性的,但缺少一些功能,这些功能可以使它更强大和多功能。让我们讨论一些您可能考虑添加的高级功能。
用户代理和头文件
一些网站可能会阻止不包含用户代理字符串的请求,该字符串用于识别发出请求的客户端。
headers = {'User-Agent': 'your-user-agent-string'}
response = requests.get(url, headers=headers)
代理轮换
为了避免IP地址被封锁,您可以使用多个IP地址发出请求。
proxies = {'http': 'http://10.10.1.10:3128'}
response = requests.get(url, proxies=proxies)
CAPTCHA处理
一些网站使用CAPTCHA来防止自动抓取。虽然可以使用selenium等库来处理这些挑战,但这可能会使您的爬虫变得更加复杂。
from selenium import webdriverdriver = webdriver.Firefox()
driver.get(url)
# ...(CAPTCHA处理代码)
数据存储
您可以考虑使用MongoDB或SQL数据库来存储抓取的数据,而不是将其存储在文本文件中,以实现更结构化和可扩展的存储。
import pymongoclient = pymongo.MongoClient("mongodb://localhost:27017/")
db = client["抓取的数据"]
collection = db["网页"]
collection.insert_one({"url": url, "title": title, "content": full_text})
将它们组合起来
import os
import time
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoindef fetch_content(base_url, output_folder):if not os.path.exists(output_folder):os.makedirs(output_folder)visited = set()to_visit = [base_url]headers = {'User-Agent': 'your-user-agent-string'}while to_visit:url = to_visit.pop(0)if url in visited: continuetry:response = requests.get(url, headers=headers, timeout=10)response.raise_for_status()except requests.RequestException as e: print(f"无法检索{url}。错误:{e}") continuevisited.add(url)soup = BeautifulSoup(response.text, 'html.parser')title = soup.title.string if soup.title else "未找到标题"text_content = [] for paragraph in soup.find_all(['p', 'div', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6']):text_content.append(paragraph.text)full_text = "\n".join(text_content)output_file_path = os.path.join(output_folder, f"{len(visited)}.txt") with open(output_file_path, 'w', encoding='utf-8') as f:f.write(f"URL: {url}\n")f.write(f"Title: {title}\n")f.write("=====================================\n")f.write(f"Text Content:\n{full_text}\n\n") print(f"已保存从{url}抓取的数据到{output_file_path}") for a_tag in soup.find_all('a', href=True):next_url = urljoin(base_url, a_tag['href']) if base_url in next_url:to_visit.append(next_url)time.sleep(1) # 速率限制以避免过于频繁地访问服务器if __name__ == "__main__":base_url = "https://www.example.com/"output_folder = "抓取的页面"fetch_content(base_url, output_folder)
关键添加
用户代理字符串:headers字典包含一个用户代理字符串,以帮助绕过网站上的基本安全检查。
headers = {'User-Agent': 'your-user-agent-string'}
错误处理:在requests.get()方法周围的try-except块可以优雅地处理与网络相关的错误。
try:response = requests.get(url, headers=headers, timeout=10)response.raise_for_status()
except requests.RequestException as e: print(f"无法检索{url}。错误:{e}") continue
速率限制:添加了time.sleep(1)以在请求之间暂停一秒钟,减少IP地址被封锁的风险。
time.sleep(1)
通过添加这些功能,我们使网络爬虫更加强大,并确保其尊重与之交互的网站。这是一个很好的起点,随着您继续完善网络爬虫,您可以添加更多高级功能,如代理轮换、CAPTCHA处理和数据库存储。
结论和未来方向
网络爬虫是一个功能强大的工具,具有广泛的应用,从业务到学术都有。然而,构建一个强大的网络爬虫不仅仅涉及到获取网页并解析其HTML。本文为您提供了每个步骤的综合指南,不仅解释了如何实现每个功能,还解释了每个功能为什么必要。
在继续完善您的网络爬虫时,考虑添加高级功能,如用户代理字符串、代理轮换、CAPTCHA处理和数据库存储。这些功能将使您的爬虫更加强大、多功能,并确保尊重您正在抓取的网站。有了这些工具,您将成功迈向成为一个网络爬虫专家。祝愉快抓取!
· END ·
HAPPY LIFE
本文仅供学习交流使用,如有侵权请联系作者删除
相关文章:
使用Python构建强大的网络爬虫
介绍 网络爬虫是从网站收集数据的强大技术,而Python是这项任务中最流行的语言之一。然而,构建一个强大的网络爬虫不仅仅涉及到获取网页并解析其HTML。在本文中,我们将为您介绍创建一个网络爬虫的过程,这个爬虫不仅可以获取和保存网…...
图像处理之《基于语义对象轮廓自动生成的生成隐写术》论文精读
一、相关知识 首先我们需要了解传统隐写和生成式隐写的基本过程和区别。传统隐写需要选定一幅封面图像,然后使用某种隐写算法比如LSB、PVD、DCT等对像素进行修改将秘密嵌入到封面图像中得到含密图像,通过信道传输后再利用算法的逆过程提出秘密信息。而生…...
Java 字节流
一、输入输出流 输入输出 ------- 读写文件 输入 ------- 从文件中获取数据到自己的程序中,接收处理【读】 输出 ------- 将自己程序中处理好的数据保存到文件中【写】 流 ------- 数据移动的轨迹 二、流的分类 按照数据的移动轨迹分为:输入流 输出流…...
华硕电脑怎么录屏?分享实用录制经验!
“华硕电脑怎么录屏呀,刚买的笔记本电脑,是华硕的,自我感觉挺好用的,但是不知道怎么录屏,最近刚好要录一个教程,怎么都找不到在哪里录制,有人能教教我吗?” 随着电脑技术的不断发展…...
python学习--python的异常处理机制
try…except try:n1int(input(请输入一个整数))n2int(input(请输入另一个整数))resultn1/n2print(结果为,result) except ZeroDivisionError: print(除数不能为0)try…except…else 如果try块中没有抛出异常,则执行else块,如果try中抛出异常࿰…...
nacos+Dubbo整合快速入门
官网:Nacos Spring Boot 快速开始 下载下载链接启动:进入bin目录,startup.cmd -m standalone引入依赖 <dependency><groupId>org.apache.dubbo</groupId><artifactId>dubbo</artifactId><version>3.0.9…...
QT实现钟表
1、 头文件 #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow> #include <QPaintEvent> //绘制事件类 #include <QDebug> //信息调试类 #include <QPainter> //画家类 #include <QTimerEve…...
准备我们心爱的IDEA写Jsp
JSP学习 一、准备我们心爱的IDEA new一个项目:New Project --> Next -->Next -->Finsh 二、配置好服务器Tomcat-9.0.30 1.> 在WEB-INF下创建一个Lib包 将jsp-api.jar复制进去,并使其生效 未生效前: 生效过程: 2.>…...
将近 5 万字讲解 Python Django 框架详细知识点(更新中)
Django 框架基本概述 Django 是一个开源的 Web 应用后端框架,由 Python 编写。它采用了 MVC 的软件设计模式,即模型(Model)、视图(View)和控制器(Controller)。在 Django 框架中&am…...
Arcgis提取每个像元的多波段反射率值
Arcgis提取每个像元的多波段反射率值 数据预处理 数据预处理阶段需要对遥感图像进行编辑传感器参数、辐射定标、大气校正、正射校正,具体流程见该文章 裁剪研究区 对于ENVI处理得到的tiff影像,虽然是经过裁剪了,但是还存在黑色的背景值&a…...
JavaScript面试题整理(一)
数据类型篇 1、JavaScript有哪些数据类型,它们的区别是什么? 基本数据类型:number、string、boolean、undefined、NaN、BigInt、Symbol 引入数据类型:Object NaN是JS中的特殊值,表示非数字,NaN不是数字…...
数据结构:树和二叉树之-堆排列 (万字详解)
目录 树概念及结构 1.1树的概念 1.2树的表示 编辑2.二叉树概念及结构 2.1概念 2.2数据结构中的二叉树:编辑 2.3特殊的二叉树: 编辑 2.4 二叉树的存储结构 2.4.1 顺序存储: 2.4.2 链式存储: 二叉树的实现及大小堆…...
爬虫入门基础:深入解析HTTP协议的工作过程
目录 一、HTTP协议简介 二、HTTP协议的工作过程 三、请求方法与常见用途 四、请求头与常见字段 五、状态码与常见含义 六、进阶话题和注意事项 总结 在如今这个数字化时代,互联网已经成为我们获取信息、交流和娱乐的主要渠道。而在互联网中,HTTP协…...
k8备份与恢复-Velero
简介 Velero 是一款可以安全的备份、恢复和迁移 Kubernetes 集群资源和持久卷等资源的备份恢复软件。 Velero 实现的 kubernetes 资源备份能力,可以轻松实现 Kubernetes 集群的数据备份和恢复、复制 kubernetes 集群资源到其他kubernetes 集群或者快速复制生产环境…...
基于Python开发的火车票分析助手(源码+可执行程序+程序配置说明书+程序使用说明书)
一、项目简介 本项目是一套基于Python开发的火车票分析助手,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Python学习者。 包含:项目源码、项目文档等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,…...
旺店通·企业奇门与金蝶云星空对接集成订单查询连通销售订单新增(旺店通销售-金蝶销售订单-小红书)
旺店通企业奇门与金蝶云星空对接集成订单查询连通销售订单新增(旺店通销售-金蝶销售订单-小红书) 接通系统:旺店通企业奇门 慧策最先以旺店通ERP切入商家核心管理痛点——订单管理,之后围绕电商经营管理中的核心管理诉求,先后布局流量获取、会…...
卡尔曼滤波应用在数据处理方面的应用
卡尔曼滤波应用到交通领域 滤波器介绍核心思想核心公式一维卡尔曼滤波器示例导入所需的库 滤波器介绍 卡尔曼滤波器是一种用于估计系统状态的数学方法,它以卡尔曼核心思想为基础,广泛应用于估计动态系统的状态和滤除测量中的噪声。以下是卡尔曼滤波器的核…...
PROFIBUS主站转ETHERCAT协议网关
产品介绍 JM-DPM-ECT是自主研发的一款PROFIBUS-DP主站功能的通讯网关。该产品主要功能是将各种PROFIBUS-DP从站接入到ETHERCAT网络中。 本网关连接到PROFIBUS总线中作为主站使用,连接到ETHERCAT总线中作为从站使用。 产品参数 技术参数 ◆ PROFIBUS-DP/V0 协议符…...
Vue路由的使用及node.js下载安装和环境搭建
目录 一、Vue路由 1.1 简介 ( 1 ) 特点 ( 2 ) 作用 1.2 实例 ( 1 ) 引入 ( 2 ) 组件 ( 3 ) 关系 ( 4 ) 路由 ( 5 ) 事件 ( 6 ) 锚点 二、nodeJS 2.1 下载 2.2 安装 2.3 环境搭建 新增 添加 测试 配置 运行 一、Vue路由 1.1 简介 Vue路由是Vue.…...
【算法训练-二叉树 三】【最大深度与直径】求二叉树的最大深度、求二叉树的直径
废话不多说,喊一句号子鼓励自己:程序员永不失业,程序员走向架构!本篇Blog的主题是【求二叉树的直径】,使用【二叉树】这个基本的数据结构来实现,这个高频题的站点是:CodeTop,筛选条件…...
查看linux是centos还是Ubuntu
查看linux是centos还是Ubuntu 命令:cat /etc/os-release...
win10怎么关闭自动更新,这个方法你知道吗?
Windows 10 操作系统自动更新是确保系统安全性和性能的关键功能。然而,有时用户可能希望手动控制更新,因此关闭自动更新可能是一个有用的选项。在本文中,我们将介绍win10怎么关闭自动更新的两种方法,以满足用户不同的需求。 方法1…...
「语音芯片」常见的OTP芯片故障分析
OTP语音芯片是指一次性可编程语音芯片,语音只能烧写一次,适合应用在不需要修改语音、语音长度短的场合,从放音的长度上可以分为20秒、40秒、80秒、170秒、340秒。语音芯片的特点是单芯片方案、价格便宜,适合批量生产,即便是小数量…...
孩子写作业买什么样台灯合适?适合孩子读写台灯推荐
现在孩子的普遍都存在视力问题,而导致孩子近视的原因可能跟光线太强或太弱、不用的用眼习惯、长时间的过度用眼等因素有关,根据数据表明目前中国近视患者人数达到6亿多,其中儿童青少年的视力不良率甚至高达八成,所以在孩子的学习道…...
DBAPI插件开发指南
DBAPI插件开发指南 插件市场 您可以去插件市场下载插件 插件的作用 DBAPI的插件分4类,分别是数据转换插件、缓存插件、告警插件、全局数据转化插件 缓存插件 对执行器结果进行缓存,比如SQL执行器,对查询类SQL,sql查询结果进…...
线程池使用之自定义线程池
目录 一:Java内置线程池原理剖析 二:ThreadPoolExecutor参数详解 三:线程池工作流程总结示意图 四:自定义线程池-参数设计分析 1:核心线程数(corePoolSize) 2:任务队列长度(workQueue) 3:最大线程数(maximumPoolSize) 4:最…...
Puppeteer无头浏览器:开启自动化之门,掌握浏览器世界的无限可能
大概还是入门期,我曾用Puppeteer做爬虫工具以此来绕过某网站的防爬机制。近期有需求要做任意链接网页截图,像这种场景非常适合用Puppeteer完成。无头浏览器我已知的还有Selenium。 完成截图需求踩的最大的坑不是具体的逻辑代码,而是Docker部…...
Ubuntu 23.10/24.04 LTS 放弃默认使用 snap 版 CUPS 打印堆栈
导读Canonical 的开发者、OpenPrinting 的项目负责人 Till Kamppeter 今年 5 月表示,计划在 Ubuntu 23.10(Mantic Minotaur)上默认使用 Snap 版本的 CUPS 打印堆栈。 不过经过数月的测试,官方放弃了这项决定。Ubuntu 23.10&#x…...
Linux CentOS7 history命令
linux查看历史命令可以使用history命令,该命令可以列出所有已键入的命令。 这个命令的作用可以让用户或其他有权限人员,进行审计,查看已录入的命令。 用户所键入的命令作为应保存的信息将记录在文件中,这个文件就是家目录中的一…...
XC5350A 单节锂电池保护芯片 过放2.9V/2.8V/2.4V保护IC
XC5350A产品是一个高集成度的鲤离子/聚合物电池保护解决方案。XC5350A包含先进的功率MOSFET,高精度电压检测电路和延迟电路XC5350A放入一个超小型SOT23-5封装,只有一个外部元件使其成为在电池组有限的空间的理想解决方案。 XC5350A具有包括过充ÿ…...
网站建设宣传单页/香蕉和忘忧草对焦虑的影响
8、DataGrid 显示表格数据。水很深。 详情见:MSDN:https://msdn.microsoft.com/enus/library/system.windows.c (1)构造函数,没有返回值,只有访问修饰符,名称跟类名称可一模一样 (…...
网站做流量是怎么回事/外链相册
最近要弄弄以前想弄的东东了, 所以图形界面不可少,,TKinter, 就用它了, 简单,满足要求。 #coding: utf8 from Tkinter import *def tklabel(event):s Label(root, text"IloveXin")s.pack()root …...
企业网站管理源码/广告推广接单平台
A.android:gravity"center"B.android:layout_gravity"center"C.android:layout_centerInParent"true"D.android:scaleType"center"4.下面是一段生成对话框的代码,哪一行有错误Builder builder new Builder(getApplication…...
营口网站建设哪家好/搜易网提供的技术服务
本实用新型属于计算机技术领域,具体涉及一种计算机组装系统用主板连接架。背景技术:电脑机箱主板,又叫主机板(mainboard)、系统板(systemboard)或母板(motherboard);它分为商用主板和工业主板两种,它安装在机箱内&…...
网站建设那家公司好/网络推广工具
项目结构 创建Maven项目 1、New Project -> 找到 maven 2、next -> 输入项目名称等信息 -> finish 创建SpringBoot模块 1、新建模块 2、填写对应信息 -> next -> finish...
c web网站开发/网络营销推广要求
VC屏幕保镖,也就是常见的锁屏程序,保护你的计算机在你离开的时候不受别人干扰,这是实现的源代码,另外它的界面是不是很漂亮,这也是这个小程序的亮点哦,尤其是对于一些有强迫症,对美观有一定要求…...