当前位置: 首页 > news >正文

爬虫学习(1)--requests模块的使用

前言

什么是爬虫

爬虫是一种自动化工具,用于从互联网或其他计算机网络上获取数据。它可以模拟人的行为,自动访问网页,提取感兴趣的数据,并将其存储到本地计算机或数据库中。爬虫通常用于搜索引擎、数据分析、信息聚合等领域,也被许多企业用于市场调研、竞争分析、用户行为分析等。一些爬虫可能会被用于恶意用途,如扫描漏洞、盗取信息等,因此使用爬虫时应遵守相关法律法规和伦理规范。

爬虫工作的流程图

正文

1. 认识requests模块

  urllib是python中请求URL连接的官方标准库,在python2中分为urllib and urllib2,在python3中整合成urllib。requests模块是在urllib3模块基础上进行高度封装,使用更方便,更加人性化。

2.安装requests模块

win+R后输入cmd,之后输入以下的命令即可。

pip install requests

使用pychram的用户:File->Settings->Progect,此界面有加号,可以自行安装

使用anaconda的用户:默认就有了

import requests

3. 发起GET请求

GET请求方法

发送网络请求指的是向一个特定的网络地址或URL,向服务器发送请求,以获取数据或执行操作。网络请求可以包含各种数据和参数,例如用户输入、查询条件、身份验证令牌等。发送网络请求是Web应用程序和移动应用程序等客户端应用程序与服务器端应用程序之间通信的关键步骤。常见的网络请求方法包括GET、POST、PUT、DELETE等。

import requests	# 导入requests模块
response = requests.get('http://www.baidu.com')
发送带参数的请求

发送带参数的请求的意义是可以将需要发送的数据以参数的形式传递给服务器,服务器可以根据不同的参数值做出不同的响应。对于不同的业务场景,可以使用不同的参数来控制服务器的行为,例如:

  • 在搜索引擎中,可以通过参数来指定搜索关键词、排序方式、分页等信息,以得到不同的搜索结果。
  • 在电商网站中,可以通过参数来指定商品类别、价格区间、品牌等信息,以筛选出符合条件的商品。
  • 在社交网络中,可以通过参数来指定用户ID、关注列表、粉丝列表等信息,以获取相应的用户信息和社交关系。
import requests	# 导入requests模块
payload = {'key1': 'value1', 'key2': 'value2'}	# 字符串字典
r = requests.get("http://www.baidu.com/", params=payload)
print(r.url)
payload = {'key1': 'value1', 'key2': ['value2', 'value3']}	# 将一个列表作为值传入
r = requests.get('http://www.baidu.com/', params=payload)
print(r.url)
r = requests.get("https://www.baidu.com/s?wd=长春&ie=utf-8&tn=06136131_11_oem_dg")
#百度搜索关键字与“长春”有关的信息
print(r.url)
r = requests.get("https://www.baidu.com/s?wd=北京&ie=utf-8&tn=06136131_11_oem_dg")
print(r.url)

运行结果:

定制请求头headers

请求头是HTTP协议中用于传输请求信息的一部分,它包含了一些关于请求的元数据,如请求类型、请求资源地址、请求参数、请求的来源等。常见的请求头字段包括: User-Agent (浏览器或客户端的身份标识)、Accept(客户端能够接收的MIME类型)、Cookie(请求携带的cookie数据)、Referer(请求前一个页面的地址)、Authorization(身份认证信息)、Content-Type(请求参数的MIME类型)、Content-Length(请求参数的长度)等。

如:User-Agent= 'Mozilla/5.0 (Windows NT 10.0; WOW64)

import requests	# 导入requests模块
url = 'http://www.baidu.com/s?wd=你是我的神'
headers = {'Content-Type': 'text/html;charset=utf-8','User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'}
r = requests.get(url,headers=headers)
print(r.headers)

相关文章:

爬虫学习(1)--requests模块的使用

前言 什么是爬虫 爬虫是一种自动化工具,用于从互联网或其他计算机网络上获取数据。它可以模拟人的行为,自动访问网页,提取感兴趣的数据,并将其存储到本地计算机或数据库中。爬虫通常用于搜索引擎、数据分析、信息聚合等领域&…...

【Vue2 + ElementUI】el-table中校验表单

一. 案例 校验金额 阐述&#xff1a;校验输入的金额是否正确。如下所示&#xff0c;点击【编辑图标】会变为input输入框当&#xff0c;输入金额。当输入框失去焦点时&#xff0c;若正确则调用接口更新金额且变为不可输入状态&#xff0c;否则返回不合法金额提示 <templat…...

PgSQL技术内幕 - ereport ERROR跳转机制

PgSQL技术内幕 - ereport ERROR跳转机制 使用客户端执行SQL的时候经常遇到报ERROR错误&#xff0c;然后SQL语句就退出了。当然&#xff0c;事务也会回滚掉。本文我们看下它是如何做到退出SQL语句并回滚事务的。 1、以insert一个numeric类型值为例 表一个字段为numeric(10,2)类型…...

【验证概括 SV的数据类型_2023.12.18】

验证概括 验证的过程是保证芯片实现符合规格说明书&#xff08;Specification&#xff0c;spec&#xff09;的过程 验证的两项任务&#xff1a; RTL sim&#xff1a;前仿真&#xff0c;验证功能 GLS-Gate (Level Simulation)&#xff1a;后仿真&#xff0c;验证功能和时序 验…...

如何在无公网IP环境下远程访问Serv-U FTP服务器共享文件

文章目录 1. 前言2. 本地FTP搭建2.1 Serv-U下载和安装2.2 Serv-U共享网页测试2.3 Cpolar下载和安装 3. 本地FTP发布3.1 Cpolar云端设置3.2 Cpolar本地设置 4. 公网访问测试5. 结语 1. 前言 科技日益发展的今天&#xff0c;移动电子设备似乎成了我们生活的主角&#xff0c;智能…...

电子工程师如何接私活赚外快?

对电子工程师来说&#xff0c;利用业余时间接私活是个很常见的技术&#xff0c;不仅可以赚取额外收入&#xff0c;也能提升巩固技术&#xff0c;可以说国内十个工程师&#xff0c;必有五个在接私活养家糊口&#xff0c;如果第一次接私活&#xff0c;该如何做&#xff1f; 很多工…...

数据库进阶教学——读写分离(Mycat1.6+Ubuntu22.04主+Win10从)

目录 1、概述 2、环境准备 3、读写分离实验 3.1、安装jdk 3.2、安装Mycat 3.3、配置Mycat 3.3.1、配置schema.xml ​​​​3.3.2、配置server.xml 3.4、修改主从机远程登陆权限 3.4.1、主机 3.4.2、从机 3.5、启动Mycat 3.6、登录Mycat 3.7、验证 1、概述 读写分…...

MidJourney笔记(9)-daily_theme-docs-describe

/daily_theme 切换 #daily-theme 频道更新的通知。 但我发现在对话框那里,是没有这个命令的: 但官网是有介绍,不知道是不是版本问题还是这个命令已经无效。 但后来,我发现这个命令是要在Midjourney服务对话框那里才有,在我们后面添加的Mid...

鸿蒙 - arkTs:网络请求封装和使用

1. module.json5文件配置网络请求 {"module": {"requestPermissions": [{"name": "ohos.permission.INTERNET"}]} } 2. 在pages同级创建一个文件夹&#xff0c;起名为api 3. api文件夹下创建index.ts文件&#xff0c;文件内容&…...

多功能演示工具ProVideoPlayer2 mac特色介绍

ProVideoPlayer2 mac是用于大多数任何生产的首选多功能演示工具。ProVideoPlayer 2是一种动态视频播放和处理媒体服务器&#xff0c;可将视频映射&#xff08;包括播放和实时视频输入&#xff09;实时控制到一个或多个输出。包括实时效果&#xff0c;调度&#xff0c;网络同步和…...

java设计模式学习之【责任链模式】

文章目录 引言责任链模式简介定义与用途实现方式 使用场景优势与劣势在Spring框架中的应用日志示例代码地址 引言 在现实生活中&#xff0c;常常会遇到这样的场景&#xff1a;一个请求或命令需要经过多个层级的处理。例如&#xff0c;一个行政审批流程可能需要通过多个部门的审…...

docker 安装可视化工具 Protainer 以及 汉化

一、创建保存数据的卷 安装网址&#xff1a;Install Portainer BE with Docker on Linux - Portainer Documentation docker pull portainer/portainer二、根据portainer镜像创建容器 docker run -d -p 8000:8000 -p 9000:9000\ --name portainer --restartalways \ -v /var/r…...

【SpringBoot篇】详解Bean的管理(获取bean,bean的作用域,第三方bean)

文章目录 &#x1f354;Bean的获取&#x1f384;注入IOC容器对象⭐代码实现&#x1f6f8;根据bean的名称获取&#x1f6f8;根据bean的类型获取&#x1f6f8;根据bean的名称和类型获取 &#x1f384;Bean的作用域⭐代码实现&#x1f388;注意 &#x1f384;第三方Bean⭐代码实现…...

彭涛:2023年终复盘,工作,团队,个人!

眨眼2023即将结束&#xff0c;2024即将开启&#xff0c;每年这个时候&#xff0c;都会简单总结下自己这一年&#xff0c;既是对今年的一个复盘和回顾&#xff0c;也是对新一年的向往和期待。 我的2023年&#xff0c;大概分为 「个人」&#xff0c;「家庭」&#xff0c;「团队」…...

【数据结构和算法】---二叉树(2)--堆的实现和应用

目录 一、堆的概念及结构二、堆结构的实现2.1堆向下调整算法2.2堆向上调整算法2.3删除堆顶元素2.4插入元素2.5其他函数接口 三、堆结构的应用3.1堆排序3.2Top-k问题 四、堆概念及结构相关题目 一、堆的概念及结构 如果有一个数字集合&#xff0c;并把它的所有元素按完全二叉树…...

【大模型实践】基于文心一言的对话模型设计

文心一言&#xff08;英文名&#xff1a;ERNIE Bot&#xff09;是百度全新一代知识增强大语言模型&#xff0c;文心大模型家族的新成员&#xff0c;能够与人对话互动、回答问题、协助创作&#xff0c;高效便捷地帮助人们获取信息、知识和灵感。文心一言从数万亿数据和数千亿知识…...

聊聊PowerJob的StoreStrategy

序 本文主要研究一下PowerJob的StoreStrategy StoreStrategy tech/powerjob/worker/common/constants/StoreStrategy.java Getter AllArgsConstructor public enum StoreStrategy {DISK("磁盘"),MEMORY("内存");private final String des; }StoreStra…...

HTML+CSS+JS网页设计期末课程大作业 web课程设计 web前端开发 网页规划与设计

HTMLCSSJS网页设计期末课程大作业 web前端开发技术 web课程设计 网页规划与设计 &#x1f4a5; 文章目录一、&#x1f6a9; 网站描述二、&#x1f38c; 网站介绍三、&#x1f3f4; 网站类型A 个人博客主题B 人物明星主题C 旅游主题D 游戏主题E 动漫主题F 美食主题G 校园主题H 企…...

vscode | python | remote-SSH | Debug 配置 + CLIP4Clip实验记录

安装Extension 本地安装Remote-SSH、python 远程服务器上安装Python 难点&#xff1a;主机和远程服务器上安装Python扩展失败&#xff0c;可能是网络、代理等原因导致解决方法&#xff1a; 主机在官方网站下载Python扩展&#xff1a;https://marketplace.visualstudio.com/it…...

【Linux】实现windows主机与ubuntu虚拟机系统之间文件/字符复制粘贴

环境 硬件&#xff1a;通用PC 系统&#xff1a;Ubuntu 18.04 《 》Windows10 软件 &#xff1a;VMware Workstation 16 Pro 解决 0、现象 使用Ubuntu 虚拟机时&#xff0c;有时需要来回复制文件或者字符串到主机或虚拟机。 1、分析 2、思路 3、解决 //先安装open-vm-to…...

Ubuntu22.04-安装后Terminal无法调出

参考&#xff1a; Ubuntu20.04 终端打开不了的问题排查_ubuntu终端打不开-CSDN博客 https://blog.csdn.net/u010092716/article/details/130968032 Ubuntu修改locale从而修改语言环境_ubuntu locale-CSDN博客 https://blog.csdn.net/aa1209551258/article/details/81745394 问…...

ffmpeg两种windows版本区别说明

版本一 必须拷贝exe和dll文件才能使用&#xff0c;如果缺少dll则exe不正正常执行 如果缺少dll &#xff0c;执行 exe会报错如下 版本2 直接拷贝exe就能使用&#xff0c;没有依赖的环境...

最新国内AI绘画Midjourney绘画提示词Prompt分享

一、Midjourney绘画工具 SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统&#xff0c;支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美&#xff0c;可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭…...

ChatGPT4.0(中文版)国内无限制免费版(附网址)

ChatGPT&#xff0c;由OpenAI开发的人工智能语言模型。它是你的数字对话伙伴&#xff0c;无论你有何问题或需要什么帮助&#xff0c;它都能提供有用的信息。 经过不断的研发和更新&#xff0c;ChatGPT的性能和功能得到了显著提升。现在&#xff0c;我们将重点介绍ChatGPT的两个…...

模拟电路基础知识笔记,你想知道的都有,建议收藏!

大家总说模电知识总是学不会&#xff0c;IC修真院为大家整理了模拟电子基础知识&#xff0c;看看你掌握了多少&#xff0c;文末可以获取全部哦。 文末可领全部文档 1、PN结是晶体二极管的基本结构&#xff0c;也是一般半导体器件的核心。 2、 射极输出器没有电压放大能力&am…...

【强化学习】基于蒙特卡洛MC与时序差分TD的简易21点游戏应用

1. 本文将强化学习方法&#xff08;MC、Sarsa、Q learning&#xff09;应用于“S21点的简单纸牌游戏”。 类似于Sutton和Barto的21点游戏示例&#xff0c;但请注意&#xff0c;纸牌游戏的规则是不同且非标准的。 2. 为方便描述&#xff0c;过程使用代码截图&#xff0c;文末附链…...

Pandas 高级教程——高级时间序列分析

Python Pandas 高级教程&#xff1a;高级时间序列分析 Pandas 提供了强大的时间序列处理功能&#xff0c;使得对时间序列数据进行高级分析变得更加灵活和方便。在本篇博客中&#xff0c;我们将深入介绍 Pandas 中的高级时间序列分析技术&#xff0c;并通过实例演示如何应用这些…...

解决Pycharm pip安装模块太慢问题,pycharm2022没有manage repositories配置镜像源

解决方案 方法清华阿里云中国科技大学华中理工大学 或者直接-i 加镜像 方法 URL写下面任意一个 清华 https://pypi.tuna.tsinghua.edu.cn/simple阿里云 http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学 http:/…...

十二:爬虫-Scrapy框架(上)

一&#xff1a;Scrapy介绍 1.Scrapy是什么&#xff1f; Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架(异步爬虫框架) 通常我们可以很简单的通过 Scrapy 框架实现一个爬虫&#xff0c;抓取指定网站的内容或图片 Scrapy使用了Twisted异步网…...

BUUCTF Reverse/[2019红帽杯]Snake

BUUCTF Reverse/[2019红帽杯]Snake 下载解压缩后得到可执行文件&#xff0c;而且有一个unity的应用程序&#xff0c;应该是用unity编写的游戏 打开是一个贪吃蛇游戏 用.NET Reflector打开Assembly-CSharp.dll。&#xff08;unity在打包后&#xff0c;会将所有的代码打进一个Ass…...

网站制作案例怎么样/腾讯搜索引擎入口

【jzoj 4743 NOIP2016 提高 A 组模拟 9.2】积木(Standard IO)Time Limits: 1000 ms $ \quad $ Memory Limits: 262144 KB $ \quad $ Detailed LimitsDescription Input 第一行包含一个整数 $ n $ 。 接下来 $ n $ 行&#xff0c;每行包含三个整数 $ a,b,c $ &#xff0c;表示该…...

wordpress 主题生成/营销型网站建设ppt

1 UI界面代码; 看着多。实际上真正布局用到的地方,也是非常有限的。 <Page x:Class="Wpf.Jie.Views.Jie1_Page1"xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml&qu…...

建立网站代码/百度站长工具怎么查排名

驱动架构 platform_device与platform_driver匹配进入probe&#xff0c;注册spi_master 在spi_master list和spi_board_info list总寻找匹配的bus num&#xff0c;并注册spi_device spi_device与spi_driver匹配进入spi_probe函数开始spi device相关的操作。 添加一个spi设备 …...

做花型设计哪个网站下载素材好/今日十大热点新闻事件

注&#xff1a; 此系列为自己之前所搭建网站内容。 其实python的os模块能够很好的完成此任务。改天总结下。 之前在处理气象数据时&#xff0c;十几个文件&#xff0c;文件名比较长&#xff0c;需要自己处理变动的年份找出地址的规律再进行文件的读取&#xff0c;结果就这一点东…...

专业集团门户网站建设服务商/百度seo点击

&#xff08;一&#xff09;该如何理解事实表 事实表作为维度建模的另一个核心&#xff0c;是紧贴着业务过程来进行设计和描述的。相对于维度表来说&#xff0c;事实表要大的多&#xff0c;由于承载了具体的业务过程&#xff0c;因而变化也非常大。与维度表不同的是&#xff0…...

wordpress 导航调用代码/网站百度收录秒收方法

一个SQL语句被发送到MySQL是如果被执行的?select name,age from user where age > 8如上一个SQL语句&#xff0c;发送到MySQL服务器之后&#xff0c;会做什么&#xff0c;如何识别上边语句并返回结果&#xff1f;下面我们来详细说明这个过程。语法解析和预处理(Parser &…...