当前位置: 首页 > news >正文

Python爬虫——1爬虫基础(一步一步慢慢来)

一、爬虫是什么? (spider)

Python 爬虫是利用编程语言 Python 来获取互联网上的数据的技术。它可以自动化地访问网页、提取信息并进行数据处理。以下是Python爬虫的基础知识和步骤:

主要特点和功能:

  1. 自动化浏览:爬虫程序能够自动访问和浏览互联网上的各种网页,而无需人工干预。

  2. 信息抓取:爬虫根据预定的规则和算法,从网页的HTML源码中提取所需的数据。这些数据可以是文本、图片、视频、超链接等。

  3. 广泛应用:爬虫在搜索引擎索引网页、价格比较网站、新闻聚合、社交媒体分析等领域广泛应用。它们可以帮助自动化地收集和分析大量的数据。

工作原理:

  • 发送请求:爬虫首先向目标网站发送HTTP请求,请求特定的网页内容。

  • 获取响应:网站接收请求后,返回相应的HTML或XML等格式的页面数据。

  • 解析页面:爬虫利用解析器(如Beautiful Soup)分析和解释页面的结构和内容,以便定位和提取所需数据。

  • 存储数据:提取到的数据通常会被存储到文件、数据库或其他数据存储系统中,以备后续分析和使用。

应用举例:

  • 搜索引擎:爬虫帮助搜索引擎建立和更新网页索引,使得用户可以通过关键词搜索快速找到相关网页。

  • 价格比较:电商网站使用爬虫收集竞争对手的价格信息,帮助制定价格策略。

  • 新闻聚合:爬虫从多个新闻网站抓取新闻内容,形成一个汇总的新闻平台。

二、基础知识

1.URL:

URL(统一资源定位符)是用于标识和定位互联网上资源的地址。它是通过一种标准化的格式来描述网络资源的位置和访问方式。URL通常由多个部分组成,包括协议、域名或IP地址、路径、查询参数和片段等,具体格式如下:

scheme://host:port/path?query#fragment
https://mp.csdn.net/mp_blog/creation/editor?spm=1001.2014.3001.4503#本网站
  1. 协议(Scheme):指定访问资源所使用的协议或者服务类型。常见的协议包括:

    • http:超文本传输协议,用于传输网页数据。
    • https:安全超文本传输协议,使用SSL加密传输网页数据,更安全。
    • ftp:文件传输协议,用于在网络上传输文件。
  2. 主机(Host):指定资源所在的主机名或者IP地址。例如,www.example.com 或者 192.168.1.1

  3. 端口(Port,可选):指定访问资源时使用的端口号。大部分情况下,如果未指定,默认使用协议默认的端口(如HTTP默认端口为80,HTTPS默认端口为443)。

  4. 路径(Path,可选):指定服务器上资源的具体路径或者文件名。例如,/index.html

  5. 查询参数(Query,可选):传递给服务器的额外参数,通常以键值对的形式存在,多个参数之间使用 & 分隔。例如,?page=2&category=python

  6. 片段(Fragment,可选):标识资源中的一个片段或位置,通常用于直接定位到网页的某个部分。例如,#section2

URL被广泛用于网页浏览、API调用、文件下载等场景,是互联网上资源定位的标准方式。浏览器和各种网络应用程序通过解析和使用URL来访问并获取所需的网络资源。

三、前端代码

我们使用爬虫的时候会需要我们解析前端代码,我们使用爬虫时了解前端代码是必须的。

<!DOCTYPE html> 声明为 HTML5 文档
<html>..</html> 是网页的根元素
<head>..</head> 元素包含了文档的元(meta)数据,如 <meta charset="utf-8"> 定义网页编码格式为 utf-8。
<title>..<title> 元素描述了文档的标题
<body>..</body> 表示用户可见的内容
<div>..</div> 表示框架
<p>..</p> 表示段落
<ul>..</ul> 定义无序列表
<ol>..</ol>定义有序列表
<li>..</li>表示列表项
<img src="" alt="">表示图片
<h1>..</h1>表示标题
<a href="">..</a>表示超链接

四、合适的库

Python 中有许多强大的库可用于爬虫,其中最流行和常用的是 requestsBeautiful Soup(或 bs4)。

  • requests:用于发送HTTP请求,获取网页内容。

  • Beautiful Soup:用于解析HTML或XML文档,提取数据。
  • pip install requests 
    pip install Beautiful Soup

    执行以上命令载入库(win+r,输入cmd,输入执行)

相关文章:

Python爬虫——1爬虫基础(一步一步慢慢来)

一、爬虫是什么&#xff1f; &#xff08;spider&#xff09; Python 爬虫是利用编程语言 Python 来获取互联网上的数据的技术。它可以自动化地访问网页、提取信息并进行数据处理。以下是Python爬虫的基础知识和步骤&#xff1a; 主要特点和功能&#xff1a; 自动化浏览&#…...

【js自学打卡9】抛出异常 / 幂计算 / 发布订阅 / map小知识点

1. 抛出异常的写法 抛出一个简单的字符串错误 throw Error2; // 抛出一个字符串抛出一个Error对象 throw new Error(出错了&#xff01;);抛出一个自定义错误对象 function UserError(message) {this.message message;this.name "UserError"; } throw new User…...

ArcGIS Pro SDK (九)几何 7 多点

ArcGIS Pro SDK &#xff08;九&#xff09;几何 7 多点 文章目录 ArcGIS Pro SDK &#xff08;九&#xff09;几何 7 多点1 构造多点 - 从映射点的枚举2 构造多点 - 使用 MultipointBuilderEx3 修改多点的点4 从多点检索点、2D 坐标、3D 坐标 环境&#xff1a;Visual Studio 2…...

服务器注意事项

1. 远程服务器不允许关机&#xff0c;只能重启&#xff1b; 2. 重启服务器应关闭服务&#xff1b; 3. 不要在服务器访问高峰运行高负载命令&#xff1b; 4. 远程配置防火墙是不要把自己踢出服务器&#xff1b; 5. 制定合理的密码规范并定期更新&#xff1b; 6. 合理分配权…...

学生信息管理系统设计

学生信息管理系统的设计是一个综合性的项目&#xff0c;涉及到数据的存储、检索、更新和删除等基本操作&#xff0c;同时也需要考虑系统的易用性、安全性和扩展性。以下是一些关键步骤和要素&#xff0c;用于指导设计这样一个系统&#xff1a; 1. 需求分析 目标用户&#xff…...

Python求均值,方差,标准差

参考链接&#xff1a;变异系数&#xff08;Coefficient of Variation,COV&#xff09;和协方差&#xff08;Covariance, Cov&#xff09;-CSDN博客 参考链接&#xff1a;pandas中std和numpy的np.std区别_numpy pandas std-CSDN博客 在计算蛋白质谱数据中的每个蛋白对应的变异…...

DDei在线设计器-HTML渲染

Html渲染 HtmlViewer插件通过将一个外部DIV附着在图形控件上&#xff0c;从而改变原有图形的显示方式。允许使用者自己定义HTML通过HTML元素。本示例演示了通过Html来扩展渲染图形&#xff0c;从而获得更加丰富的图形展现。 通常情况下&#xff0c;我们创建的图形控件&#xff…...

【React Hooks原理 - useSyncExternalStore】

概述 在React项目中说到状态管理&#xff0c;我们第一时间想到的就是使用useState、useReducer这种Hooks来进行状态管理。但是这种是针对React内部的状态&#xff0c;如果有时候我们需要订阅外部的状态并影响React组件的更新的话&#xff0c;那通过这种内部状态管理API显然不能…...

C++STL初阶(7):list的运用与初步了解

在了解了vector之后&#xff0c;我们只需要简单学习List与vector不一样的接口即可 1.list的基本接口 1.1 iterator list中&#xff0c;与vector最大的区别就是迭代器由随机迭代器变成双向迭代器 string和vector中的迭代器都是随机迭代器&#xff0c;支持-等&#xff0c;而LIS…...

el-menu弹出菜单样式不生效

1. 使用 ruoyi 项目时出现的问题。 <template><el-menu:default-active"activeMenu":collapse"false":unique-opened"true"class"container":collapse-transition"true"mode"horizontal"><sideba…...

Springboot 3.x - Reactive programming (2)

三、WebFlux Blocking Web vs. Reactive Web Blocking Web (Servlet) and Reactive Web (WebFlux) have significant differences in several aspects. 1. Front Controller Servlet-Blocking Web: Uses DispatcherServlet as the front controller to handle all HTTP req…...

WPF+Mvvm 项目入门完整教程(一)

WPF+Mvvm 入门完整教程一 创建项目MvvmLight框架安装完善整个项目的目录结构创建自定义的字体资源下载更新和使用字体资源创建项目 打开VS2022,点击创建新项目,选择**WPF应用(.NET Framework)** 创建一个名称为 CommonProject_DeskTop 的项目,如下图所示:MvvmLight框架安装…...

[解决方法]git上传的项目markdown文件的图片无法显示

应该有不少初学者会遇到这种情况 以下是本人摸索出的解决方法 我使用的是typora&#xff0c;首先设置typora的图片设置 文件>偏好设置>图像 如下&#xff1a; 选择这个就会在此文件的同级目录下创建一个assets文件夹来存放此markdown文件的所有图片 然后勾选优先使用相…...

【React】使用 antd 加载组件实现 iframe 的加载效果

文章目录 代码实现&#xff1a; import { Spin } from antd; import { useState } from react;export default function () {const [loading, setLoading] useState(true);return (<div style{{ position: relative, height: 100% }}><Spinstyle{{ position: absolu…...

Python爬虫(1) --基础知识

爬虫 爬虫是什么&#xff1f; spider 是一种模仿浏览器上网过程的一种程序&#xff0c;可以获取一些网页的数据 基础知识 URL 统一资源定位符 uniform resource locator http: 超文本传输协议 HyperText Transfer Protocol 默认端口 80 https: 安全的超文本传输协议 security…...

云原生系列 - Jenkins

Jenkins Jenkins&#xff0c;原名 Hudson&#xff0c;2011 年改为现在的名字。它是一个开源的实现持续集成的软件工具。 官方网站&#xff08;英文&#xff09;&#xff1a;https://www.jenkins.io/ 官方网站&#xff08;中文&#xff09;&#xff1a;https://www.jenkins.io…...

django踩坑(四):终端输入脚本可正常执行,而加入crontab中无任何输出

使用crontab执行python脚本时&#xff0c;有时会遇到脚本无法执行的问题。这是因为crontab在执行任务时使用的环境变量与我们在终端中使用的环境变量不同。具体来说&#xff0c;crontab使用的环境变量是非交互式(non-interactive)环境变量&#xff0c;而终端则使用交互式(inter…...

计算机网络入门 -- 常用网络协议

计算机网络入门 – 常用网络协议 1.分类 1.1 模型回顾 计算机网络细分可以划为七层模型&#xff0c;分别是物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。而上三层可以划为应用层中。 1.2 分类 1.2.1 应用层 为用户的应用进程提供网络通信服务&#xff0…...

【LabVIEW作业篇 - 4】:属性节点赋值和直接节点赋值的区别体现

文章目录 属性节点赋值和直接节点赋值的区别体现 属性节点赋值和直接节点赋值的区别体现 创建5个圆形指示灯&#xff0c;然后循环点亮&#xff0c;先给圆形指示灯赋值假变量&#xff0c;然后再进行循环。 运行结果&#xff0c;观察结果&#xff0c;发现刚开始运行时&#xff0…...

【数据库系列】Parquet 文件介绍

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…...

A Survey on Multimodal Large Language Models综述

论文题目:A Survey on Multimodal Large Language Models 论文地址:https://arxiv.org/pdf/2306.13549 话题:多模态LLMs综述 MLLMs Paper: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models 1. 摘要 近期,以GPT-4V为代表的跨模态大型语言模型(MLLM…...

Leetcode3208. 交替组 II

Every day a Leetcode 题目来源&#xff1a;3208. 交替组 II 解法1&#xff1a;环形数组 把数组复制一份拼接起来&#xff0c;和 3101 题一样&#xff0c;遍历数组的同时&#xff0c;维护以 i 为右端点的交替子数组的长度 cnt。 如果 i ≥ n 且 cnt ≥ k&#xff0c;那么 i…...

汇编教程2

本教程主要教大家如何安装32位Linux虚拟机&#xff0c;为后续实验拆炸弹做准备 下载系统映像文件 以Ubuntu14.04.6系统为例 官方网站&#xff1a;下载地址 点击下载图中32位系统 如果官网进不去可以使用镜像网站 清华镜像网站&#xff1a;下载地址 进入之后找到下图中链接…...

使用 git 和 GitHub 互动

本文根据《GitHub入门与实践》整理 创建账户 要想使用GitHub那就必须先有GitHub账号,账号自行注册,不作介绍。 本地生成 SSH Key SSH 提供了一种安全的方式来通过不安全的网络进行通信。当你使用SSH key连接到GitHub时,你的身份是通过密钥对(一个公钥和一个私钥)来验…...

【Spring Boot 中的 `banner.txt` 和 `logback-spring.xml` 配置】

文章目录 一、banner.txt1. 创建自定义 banner.txt2. 配置 banner.txt 的内容 二、logback-spring.xml1. 创建 logback-spring.xml2. 配置 logback-spring.xml 一、banner.txt banner.txt 是 Spring Boot 项目启动时显示的自定义横幅内容。用来展示项目名称、版本信息或者其他…...

Python Linux环境(Centos8)安装minicoda3+jupyterlab

文章目录 安装miniconda安装python环境启动 最近服务器检查&#xff0c;我下面的服务器有漏洞&#xff0c;不得已重装了&#xff0c;正好记录下怎么从零到python写代码。 安装miniconda miniconda是anconda的精简版&#xff0c;就是管理python环境的得力助手。 # 创建一个名…...

Python PDF Magic:合并和拆分随心所欲

大家好&#xff01;小编今天要为大家带来一篇关于Python操作PDF的秘籍——无论是要将PDF合并成一份整体&#xff0c;还是将一个庞大的PDF文件拆分成多个小伙伴&#xff0c;都轻松hold住&#xff01;你准备好了吗&#xff1f;让我们开始这场奇妙的PDF操作之旅吧&#xff01; 准…...

Gmsh应用程序编程接口

Gmsh应用程序编程接口&#xff08;API&#xff09;允许将Gmsh库集成到使用C、C、Python、Julia或Fortran编写的外部应用程序中。从设计上讲&#xff0c;Gmsh API是纯粹功能性的&#xff0c;并且仅使用目标语言的基本类型。 API的结构反映了底层的Gmsh数据模型&#xff08;也请参…...

DP 203 学习笔记

考试内容总览 Learning Objects: 工具 Designing and implementing data storage 1. Storage Azure Synapse Analytics Azure Databricks Azure Data Lake Storage Gen2(ADLS2&#xff0c;可代替Hadoop Distributed File System也就是HDFS) 2. Shard Partition data store …...

SQLite 事务

SQLite 事务 SQLite 是一种轻量级的数据库管理系统,广泛用于各种应用程序中,特别是在移动设备和嵌入式系统中。它支持标准的 SQL 语法,包括事务处理。事务是数据库管理系统中的一个重要概念,它允许将一系列操作作为一个单独的工作单元来处理,以确保数据库的一致性和可靠性…...

企业为什么融资/seo优化内容

一、什么是Ognl&#xff1f; 通过百度百科查询到的解释&#xff0c;其中详细的说明了OGNL的作用。 下面我们就对OGNL这5个作用进行讲解 1、存取对象的任意属性&#xff0c;简单说就是对javabean进行操作(重要) 2、调用对象方法。 3、调用类的静态方法 4、索引数组元素 5、操作集…...

什么网站可以查房屋建筑面积/百度seo快速排名

奋斗的小孩系列 FPGA学习altera系列: 第十一篇 流水灯设计 作者:奋斗的小孩 郝旭帅(转载请注明出处) 大侠好,欢迎来到FPGA技术江湖,江湖偌大,相见即是缘分。大侠可以关注FPGA技术江湖,在“闯荡江湖”、"行侠仗义"栏里获取其他感兴趣的资源,或者一起煮酒言欢…...

济南做网站公司/医疗网站优化公司

0、引言 本系列博客仅作为本人学习K210单片机的学习记录&#xff0c;主要学习其内部资源使用&#xff0c;作为初学者难免有错误之处&#xff0c;如有发现还望指出。 硬件&#xff1a;Sipeed Maix Dock开发板&#xff08;推荐官方KD233开发板&#xff09; 软件&#xff1a;Kend…...

网站建设管理方案/电话销售怎么找客户渠道

1、SAP成立于1972年&#xff0c;R/1基于大型主机于1973年推出2、R/2基于主机/终端两层&#xff0c;于1979年推出。R&#xff0c;Realtime的意思&#xff0c;实时3、三层时代&#xff1a;R/3基于客户端/应用服务中间层/数据层三层&#xff0c;于1992年推出。SAP有了统一GUI技术、…...

重庆网站建设设计公司哪家好/百度怎么投广告

一、什么是Lambda? 我们知道&#xff0c;对于一个Java变量&#xff0c;我们可以赋给其一个“值”。 如果想把“一块代码”赋给一个Java变量&#xff0c;应该怎么做呢&#xff1f;比如把右边那块代码&#xff0c;赋给一个叫做aBlockOfCode的Java变量&#xff1a; 在Java 8之前…...

百度推广 网站建设/seo网站关键词优化价格

sql中的取模,取整,字符串连接等操作:c a mod b ;//取模c trunc(a/b);//取整//连接两个字符串,sql中不能用号连接两个字符串c a || b;或c concat(a,b);----------------------------------------------------------关于Oracle取整的函数分别有以下几种:1.取整(大) select ce…...