爬虫入门教程:爬虫概述
在数字化时代,数据已经成为我们生活和工作中不可或缺的一部分。而如何高效、准确地获取这些数据,成为了许多领域面临的共同问题。今天,我们就来一起探讨一下爬虫技术,这个能够自动从互联网上抓取信息的神奇工具。
一、什么是爬虫
简单来说,爬虫(Web Crawler)是一种按照一定规则,自动抓取互联网信息的程序或者脚本。它通过模拟人类浏览器的行为,向目标网站发送请求,然后解析并提取返回的数据。这些数据可以是网页的文本内容、图片、视频等,也可以是网页的结构信息,如链接、标签等。
二、为什么要用爬虫
通过有效的爬虫手段批量采集数据,可以降低人工成本,提高有效数据量,给予运营/销售的数据支撑,加快产品发展。
爬虫可以做什么:
- 作为通用搜索引擎网页采集器。
- 做垂直搜索引擎。
- 科学研究:在线人类行为、在线社群演化、人类动力学研究、计量社会学、复杂网络、数据挖掘等领域的实证研究都需要大量数据,网络爬虫是收集相关数据的利器。
- 偷窥,hacking,发垃圾邮件。(非常不建议!)
三、爬虫的工作原理
爬虫的工作原理可以分为以下几个步骤:
- 发送请求:爬虫首先会确定要爬取的目标网站(或称为URL),然后向该网站发送HTTP请求。
- 获取响应:目标网站在收到请求后,会返回相应的HTTP响应。这个响应中包含了网页的内容,以及网页的HTML、CSS、JavaScript等代码。
- 解析数据:爬虫会解析返回的HTML代码,提取出需要的数据。这个过程可以使用正则表达式、XPath、CSS选择器等技术来实现。
- 存储数据:提取出来的数据会被爬虫保存到本地文件、数据库或者其他存储介质中,以便后续的分析和处理。
四、爬虫的分类
根据爬虫的工作方式和目标的不同,我们可以将其分为以下几类:
- 通用爬虫:也称为全网爬虫,它会爬取整个互联网的信息。由于互联网的信息量巨大,通用爬虫通常会采用分布式架构,将任务分配给多个节点同时执行。
- 聚焦爬虫:也称为主题爬虫,它会根据特定的主题或关键词来爬取相关的网页信息。聚焦爬虫在搜索引擎、舆情监控等领域有着广泛的应用。
- 增量爬虫:它会根据网页的更新情况来爬取新产生的或者发生变化的网页信息。增量爬虫可以节省大量的带宽和存储空间,提高数据更新的效率。
- 深度爬虫:它会模拟人类用户的浏览行为,对网页进行深入的爬取。深度爬虫在数据挖掘、网络爬虫竞赛等领域有着广泛的应用。
五、爬虫的合法性
虽然爬虫技术能够为我们带来极大的便利,但是我们也需要注意到它的合法性问题。在爬取数据时,我们必须遵守目标网站的robots协议,尊重网站的版权和隐私。同时,我们也需要避免对目标网站造成过大的访问压力,以免影响其正常运行。
robots协议:在目标网站后面加上/robots.txt就可以看网站的robots协议了,例如,如果网站是https://www.example.com,则输入https://www.example.com/robots.txt。
在查看robots协议时,需要注意以下几点:
- User-agent:这一行指定了哪些爬虫或用户代理需要遵守以下的规则。例如,“User-agent: *”表示所有爬虫都需要遵守以下规则。
- Disallow:这一行指定了哪些路径或页面是不允许爬虫访问的。例如,“Disallow: /scripts/”表示爬虫不能访问
/scripts/目录下的任何页面。 - Allow:与Disallow相反,它指定了哪些路径或页面是允许爬虫访问的。但通常,Allow指令不会单独出现,而是与Disallow一起使用,以排除某些限制。
- Sitemap:这一行提供了网站地图的URL,它可以帮助爬虫更有效地爬取网站内容。
六、爬虫技术的挑战与未来
随着互联网的不断发展,爬虫技术也面临着越来越多的挑战。例如,目标网站的反爬虫机制越来越完善,使得爬取数据的难度越来越大;同时,互联网上的数据量也在不断增加,如何高效、准确地爬取这些数据也成为了一个亟待解决的问题。
反爬虫:
- 合法检测:请求校验(useragent,referer,接口加签名等)
- 小黑屋:IP/用户限制请求频率,或者直接拦截
- 投毒:返回虚假数据,可以误导竞品决策
- 各种验证码
不过,爬虫很难完全的制止,道高一尺魔高一丈,总会有相应的办法去破解反爬虫手段。
随着人工智能、大数据等技术的不断发展,爬虫技术也将迎来更多的机遇。例如,我们可以利用深度学习等技术来模拟人类用户的浏览行为,提高爬虫的效率和准确性;同时,我们也可以利用大数据技术来分析爬取到的数据,发现其中的规律和趋势,为决策提供有力的支持。
写在最后:在爬虫专栏里我会讲解用python来编写爬虫程序,带领大家从入门到进阶,分享的知识包括但不限于基础爬虫程序编写,用Beautifulsoup、xpath等解析器解析网页源代码,JavaScript异步爬虫,JS逆向,APP逆向等等,感兴趣的可以留意一下。
相关文章:
爬虫入门教程:爬虫概述
在数字化时代,数据已经成为我们生活和工作中不可或缺的一部分。而如何高效、准确地获取这些数据,成为了许多领域面临的共同问题。今天,我们就来一起探讨一下爬虫技术,这个能够自动从互联网上抓取信息的神奇工具。 一、什么是爬虫…...
【工具】windows下VMware17解锁mac安装选项(使用unlocker427)
目录 0.简介 1.环境 2.安装前后对比 3.详细安装过程 3.1 下载unlocker427 1)下载地址 2)下载unlocker427.zip 3)解压之后是这样的 4)复制iso中的两个文件到你本地的VMware的安装目录下 5)复制windows下的所有…...
JS 自测题 —— 手写 class
现有三种菜单:button 类型,select 类型,modal 类型。 共同特点 title icon 属性isDisabled 方法(可直接返回 false)exec 方法,执行菜单的逻辑 不同 button 类型,执行 exec 时打印 helloselect …...
Keras深度学习框架实战(7):使用YOLOV8和KerasCV进行高效的图像物体识别
1、绪论 1.1 KerasCV简介 KerasCV是一个专注于计算机视觉任务的模块化组件库,基于Keras构建,可与TensorFlow、JAX或PyTorch等框架配合使用。 概念与定位: KerasCV是Keras API的水平扩展,提供了一系列新的第一方Keras对象&#x…...
Django视图层探索:GET/POST请求处理、参数传递与响应方式详解
系列文章目录 Django入门全攻略:从零搭建你的第一个Web项目Django ORM入门指南:从概念到实践,掌握模型创建、迁移与视图操作Django ORM实战:模型字段与元选项配置,以及链式过滤与QF查询详解Django ORM深度游ÿ…...
磁盘配额的具体操作
磁盘配额: linux的磁盘空间有两个方面:第一个是物理空间,也就是磁盘的容量 第二个inode号耗尽,也无法写入 linux根分区:根分区的空间完全耗尽,服务程序崩溃,系统也无法启动了。 为了防止有人…...
STM 32_HAL_SDIO_SD卡
STM32的SDIO(Secure Digital Input Output) 接口是一种用于SD卡和MMC卡的高速数据传输接口。它允许STM32微控制器与多种存储卡和外设进行通信,支持多媒体卡(MMC卡)、SD存储卡、SDI/O卡和CE-ATA设备。STM32的SDIO控制器…...
人脸识别系统之动态人脸识别
二.动态人脸识别 1.摄像头人脸识别 1.1.导入资源包 import dlib import cv2 import face_recognition from PIL import Image, ImageTk import tkinter as tk import os注:这些导入语句允许您在代码中使用这些库和模块提供的功能,例如创建…...
Opencv实用笔记(一): 获取并绘制JSON标注文件目标区域(可单独保存目标小图)
文章目录 背景代码 背景 如果我们想要根据json标注文件,获取里面的指定目标的裁剪区域,那么我们可以根据以下代码来实现(也可以校验标注情况)。 代码 from tqdm import tqdm import os, json, cv2, copy import numpy as npdef…...
LabVIEW在高校电力电子实验中的应用
概述:本文介绍了如何利用LabVIEW优化高校电力电子实验,通过图形化编程实现参数调节、实时数据监控与存储,并与Simulink联动,提高实验效率和数据处理能力。 需求背景高校实验室在进行电机拖动和电力电子实验时,通常使用…...
rtsp python实现
1. rtsp rtp rtcp https://hope-wisdom.blog.csdn.net/article/details/138259027 2.rtsp加速 https://mp.weixin.qq.com/s/0C1b-8pFw0HaE1xpNbrxxw 3. 实现了一部分获取数据 import socket import base64 import threading import struct# 定义 RTSP 请求 def send_rtsp_…...
RHCE (Linux进阶) Ubuntu 操作系统安装教程
一、在官网下载iso镜像文件 下载地址: https://cn.ubuntu.com/download/server/step1#downloads(下载最新的Ubuntu 20.04 LTS服务器版本) 二、VMware安装配置过程 基本安装过程 1、新建虚拟机 2、选择典型即可 3、设置下载好的Ubuntu对应路…...
vue-router 源码分析——1. 路由匹配
这是对vue-router 3 版本的源码分析。 本次分析会按以下方法进行: 按官网的使用文档顺序,围绕着某一功能点进行分析。这样不仅能学习优秀的项目源码,更能加深对项目的某个功能是如何实现的理解。这个对自己的技能提升,甚至面试时…...
百度云下载不限速方式集合
使用解析网站配合Motrix工具软件 下载Motrix工具:Motrix下载链接打开解析网址:解析网站获取,将百度网盘链接粘贴到解析网站,获取下载链接。在Motrix中配置Aria2 RPC地址:ws://localhost:16800/jsonrpc开始下载&#x…...
2024年6月1日 (周六) 叶子游戏新闻
Embracer探讨单机游戏大作涨价超过70美元的可能性在Embracer集团等待公布新公司名称的同时,他们对游戏大作的价格上涨做出了评论。几年来,游戏大作的价格已经达到了70美元的门槛。Embracer集团的CEO Lars Wingefors在采访中表示,电子游戏行业…...
MathorCup挑战赛获奖名单公示,第九届研讨会及颁奖典礼即将举行
近日,备受瞩目的2024年第十四届MathorCup高校数学建模挑战赛圆满落幕,竞赛组委会于近日公示了获奖名单初稿。本届竞赛自2024年4月12日至16日举行,吸引了来自全国740所高校的9119支队伍踊跃参与,其中包括本科生、研究生、专科生及教…...
vulnhub靶机xptosystem
下载地址:https://download.vulnhub.com/xpto/xptosystem.ova 主机发现 端口扫描 服务扫描 漏洞扫描 看一下web 目录爆破 那不用说肯定看看robots.txt 要检查readme去看看 看不懂 这个是靶场吧很像 在最后看着挺像url路径的 还真是,我直接base64 坏了还…...
Spring Boot详解:深入了解与实践
文章目录 1. Spring Boot简介1.1 什么是Spring Boot?1.2 Spring Boot的历史背景1.3 Spring Boot的核心特点 2. Spring Boot的核心概念2.1 自动配置2.1.1 自动配置原理2.1.2 自定义配置 2.2 Spring Boot Starter2.3 Spring Boot CLI 3. Spring Boot的主要功能模块3.1…...
FreeRtos进阶——中断的内部逻辑
中断与非中断API的区别 BaseType_t xQueueSendToBack(QueueHandle_t xQueue,const void *pvItemToQueue,TickType_t xTicksToWait); BaseType_t xQueueSendToBackFromISR(QueueHandle_t xQueue,const void *pvItemToQueue,BaseType_t *pxHigherPriorityTaskWok…...
Centos7对比Ubuntu一些常用操作差异点
Centos7对比Ubuntu一些常用操作差异点 CentOS 7将于2024年6月30日停止维护,CentOS8已经转为Rhel的上游项目。同时Centos7的软件仓库中,部分软件版本较老。后续使用过程中可以考虑切换到Ubuntu。 下面总结了一些两个系统的常见差异点,包括软…...
19c补丁后oracle属主变化,导致不能识别磁盘组
补丁后服务器重启,数据库再次无法启动 ORA01017: invalid username/password; logon denied Oracle 19c 在打上 19.23 或以上补丁版本后,存在与用户组权限相关的问题。具体表现为,Oracle 实例的运行用户(oracle)和集…...
设计模式和设计原则回顾
设计模式和设计原则回顾 23种设计模式是设计原则的完美体现,设计原则设计原则是设计模式的理论基石, 设计模式 在经典的设计模式分类中(如《设计模式:可复用面向对象软件的基础》一书中),总共有23种设计模式,分为三大类: 一、创建型模式(5种) 1. 单例模式(Sing…...
超短脉冲激光自聚焦效应
前言与目录 强激光引起自聚焦效应机理 超短脉冲激光在脆性材料内部加工时引起的自聚焦效应,这是一种非线性光学现象,主要涉及光学克尔效应和材料的非线性光学特性。 自聚焦效应可以产生局部的强光场,对材料产生非线性响应,可能…...
学校招生小程序源码介绍
基于ThinkPHPFastAdminUniApp开发的学校招生小程序源码,专为学校招生场景量身打造,功能实用且操作便捷。 从技术架构来看,ThinkPHP提供稳定可靠的后台服务,FastAdmin加速开发流程,UniApp则保障小程序在多端有良好的兼…...
OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别
OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别 直接训练提示词嵌入向量的核心区别 您提到的代码: prompt_embedding = initial_embedding.clone().requires_grad_(True) optimizer = torch.optim.Adam([prompt_embedding...
Android Bitmap治理全解析:从加载优化到泄漏防控的全生命周期管理
引言 Bitmap(位图)是Android应用内存占用的“头号杀手”。一张1080P(1920x1080)的图片以ARGB_8888格式加载时,内存占用高达8MB(192010804字节)。据统计,超过60%的应用OOM崩溃与Bitm…...
Fabric V2.5 通用溯源系统——增加图片上传与下载功能
fabric-trace项目在发布一年后,部署量已突破1000次,为支持更多场景,现新增支持图片信息上链,本文对图片上传、下载功能代码进行梳理,包含智能合约、后端、前端部分。 一、智能合约修改 为了增加图片信息上链溯源,需要对底层数据结构进行修改,在此对智能合约中的农产品数…...
Java求职者面试指南:Spring、Spring Boot、MyBatis框架与计算机基础问题解析
Java求职者面试指南:Spring、Spring Boot、MyBatis框架与计算机基础问题解析 一、第一轮提问(基础概念问题) 1. 请解释Spring框架的核心容器是什么?它在Spring中起到什么作用? Spring框架的核心容器是IoC容器&#…...
【LeetCode】3309. 连接二进制表示可形成的最大数值(递归|回溯|位运算)
LeetCode 3309. 连接二进制表示可形成的最大数值(中等) 题目描述解题思路Java代码 题目描述 题目链接:LeetCode 3309. 连接二进制表示可形成的最大数值(中等) 给你一个长度为 3 的整数数组 nums。 现以某种顺序 连接…...
Qt的学习(一)
1.什么是Qt Qt特指用来进行桌面应用开发(电脑上写的程序)涉及到的一套技术Qt无法开发网页前端,也不能开发移动应用。 客户端开发的重要任务:编写和用户交互的界面。一般来说和用户交互的界面,有两种典型风格&…...
