Python爬虫(基本流程)
1. 确定目标和范围
- 明确需求:确定你需要从哪些网站抓取哪些数据。
- 合法性:检查目标网站的robots.txt文件,了解哪些内容可以被抓取。
- 数据范围:确定爬取数据的起始和结束点,比如时间范围、页面数量等。
2. 选择合适的工具库
- 请求库:如requests或urllib,用于发送HTTP请求。
- 解析库:如BeautifulSoup(适用于HTML和XML)、lxml(速度快,适用于大型文档)、re(正则表达式,用于复杂字符串处理)。
- 异步库:如aiohttp、asyncio,用于提高爬虫效率。
- 存储库:如pandas(用于数据处理和存储为CSV或Excel文件)、sqlite3或pymysql(用于数据库存储)。
3. 发送请求
- 使用requests或其他HTTP库发送GET或POST请求到目标网站。
- 可能需要处理Cookies、Headers、Session等信息。
- 应对反爬虫机制,如设置User-Agent、使用代理IP等。
4. 解析数据
- 使用BeautifulSoup或lxml等库解析HTML或XML文档。
- 提取所需的数据,如文本、图片链接、表格数据等。
5. 存储数据
- 将提取的数据保存到本地文件(如CSV、JSON)或数据库中。
- 可以使用pandas进行数据处理后再保存。
6. 异常处理
- 编写异常处理代码以应对网络问题、解析错误等情况。
- 可以使用try-except语句块来处理这些异常。
示例
爬取一个浏览器的页面:
- 1、通过浏览器搜索自己想要的一个页面,按F12,找到网络;
- 2、向上拉动,找到名称栏中的第一个,单机打开;
- 3、可以在标头里看到请求URL和请求方式,复制URL(需要用到);
- 4、在表头的最下面有"User-Agent",也复制下来
代码操作:
# 导入 requests 包
import requests
if __name__ == '__main__':# 模仿浏览器上网# UA伪装 让你认为我是一个浏览器(应对反爬虫机制)粘贴复制好的User-Agenthead = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"}# 1、指定url 粘贴复制好的URLurl = "https://www.sogou.com/web?query=%E6%9D%A8%E5%B9%82&_asf=www.sogou.com&_ast=&w=01019900&p=40040100&ie=utf8&from=index-nologin&s_from=index&sut=3151&sst0=1721289914995&lkt=4%2C1721289911845%2C1721289912426&sugsuv=1721288239060070&sugtime=1721289914995"# 2、发送请求 返回的数据在response对象内response = requests.get(url, headers=head) # 这是get请求方式# 3、获取你想要的数据print(response.text)
如何打开?
- 1、在项目中创建一个html文件
- 2、将获取到的数据全部放入到html文件中
- 3、右上角会出现浏览器的小标识,选择想用的浏览器,单机打开(不需要管有没有报错)
打开后就能跳到你之前所搜索的页面
相关文章:
![](https://i-blog.csdnimg.cn/direct/c26dc3280af24a7093aeacae092a235d.png)
Python爬虫(基本流程)
1. 确定目标和范围 明确需求:确定你需要从哪些网站抓取哪些数据。合法性:检查目标网站的robots.txt文件,了解哪些内容可以被抓取。数据范围:确定爬取数据的起始和结束点,比如时间范围、页面数量等。 2. 选择合适的工…...
![](https://i-blog.csdnimg.cn/direct/abb0c816e35a45c5abd3488d9526a3e7.png)
primeflex教学笔记20240720, FastAPI+Vue3+PrimeVue前后端分离开发
练习 先实现基本的页面结构: 代码如下: <template><div class"flex p-3 bg-gray-100 gap-3"><div class"w-20rem h-12rem bg-indigo-200 flex justify-content-center align-items-center text-white text-5xl">…...
![](https://img-blog.csdnimg.cn/img_convert/8e58f65b4f4d76a895cfbdd331b43217.png)
移动设备安全革命:应对威胁与解决方案
移动设备已成为我们日常工作和家庭生活中不可或缺的工具,然而,对于它们安全性的关注和投资仍然远远不够。本文深入分析了移动设备安全的发展轨迹、目前面临的威胁态势,以及业界对于这些安全漏洞响应迟缓的深层原因。文中还探讨了人们在心理层…...
![](https://i-blog.csdnimg.cn/direct/aeef3c75d5cf4525bb69c57a17ddc078.png)
【C语言】 链表实现学生管理系统(堆区开辟空间)
总体思路都能写出来,问题是感觉稍微比之前的麻烦一些,在刚开始创建结构体的时候,并没有去按照链表的思路去写,导致写成了顺序表,后面就一直纠结空间怎么开辟。 链表是由一个头节点和其它申请出来的小节点连起来的&…...
![](https://i-blog.csdnimg.cn/direct/d1e7e550002b48b7b90e94bd54139519.jpeg)
STM32实战篇:按键(外部输入信号)触发中断
功能要求 将两个按键分别与引脚PA0、PA1相连接,通过按键按下,能够触发中断响应程序(不需明确功能)。 代码流程如下: 实现代码 #include "stm32f10x.h" // Device headerint main() {//开…...
![](https://i-blog.csdnimg.cn/direct/476e57fa015742e2a69fa5fac7af0bce.png#pic_center)
Android SurfaceView 组件介绍,挖洞原理详解
文章目录 组件介绍基本概念关键特性使用场景 SurfaceHolder介绍主要功能使用示例 SurfaceView 挖洞原理工作机制 使用SurfaceView展示图片示例创建一个自定义的 SurfaceView类在 Activity 中使用 ImageSurfaceView注意事项效果展示 组件介绍 在 Android 开发中,Sur…...
![](https://www.ngui.cc/images/no-images.jpg)
day2加餐 Go 接口型函数的使用场景
文章目录 问题价值使用场景其他语言类似特性 问题 在 动手写分布式缓存 - GeeCache day2 单机并发缓存 这篇文章中,有一个接口型函数的实现: // A Getter loads data for a key. type Getter interface {Get(key string) ([]byte, error) }// A Getter…...
![](https://i-blog.csdnimg.cn/direct/14fca2355454477db7671040afdb67da.png)
摄像头 RN6752v1 视频采集卡
摄像头 AHD倒车摄像头比较好,AHD英文全名Analog High Definition,即模拟高清,拥有比较好的分辨率与画面质感。 RN6752v1 GQW AKKY2 usb 采集卡 FHD(1080p)、HD(720p)和D1(480i&am…...
![](https://i-blog.csdnimg.cn/direct/fe43d3d3a3754b9e8497d4a730b2bc2d.png)
记录vivado自带IP iBert眼图近端回环
记录利用vivado自带IP核工具测试信号质量 ibert是测试眼图的工具,在使用的时候并不用改太多的内容,只需要注意参考时钟及所需要的引脚即可。由于条件的限制,并没有使用光纤和电缆进行连接进行外部回环,仅使用内部回环做测试&…...
![](https://i-blog.csdnimg.cn/direct/c38be68f16624a68a6b0a2d449befddc.png)
js | Core
http://dmitrysoshnikov.com/ecmascript/javascript-the-core/ Object 是什么? 属性[[prototype]]对象。 例如,下面的,son是对象,foo不是对象。打印出来的son,能看到有一个prototype 对象。 prototype vs _proto_ v…...
![](https://www.ngui.cc/images/no-images.jpg)
Log4J reminder
Java JNDI and Log injection https://docs.oracle.com/javase/jndi/tutorial/ See also https://telegra.ph/Log4J-Vulnerability-Explained-07-21...
![](https://i-blog.csdnimg.cn/direct/73bc43b93c0d42f18f6fcab8929bec32.png)
Unity XR Interaction Toolkit(VR、AR交互工具包)记录安装到开发的流程,以及遇到的常见问题(一)!
提示:文章有错误的地方,还望诸位大神不吝指教! 文章目录 前言一、XR Interaction Toolkit是什么?二、跨平台交互三、 AR 功能四、XR Interaction Toolkit的特点五、XR Interaction Toolkit 示例总结 前言 随着VR行业的发展&#…...
![](https://img-blog.csdnimg.cn/img_convert/6d1d1efd8079b07d8d45f6525d494bef.png)
MongoDB文档整理
过往mongodb文档: https://blog.csdn.net/qq_46921028/article/details/123361633https://blog.csdn.net/qq_46921028/article/details/131136935https://blog.csdn.net/qq_46921028/article/details/139247847 1. MongoDB前瞻 1、MongoDB概述: MongoDB是…...
![](https://i-blog.csdnimg.cn/direct/5d09a9e52d3d47bdb7862b26153913d8.png)
【AI学习】关于Scaling Law的相关学习
一、苦涩的教训 首先,学习一段重要话语: The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin. 从70年的人工智能研究中…...
![](https://www.ngui.cc/images/no-images.jpg)
学习小记-Kafka相较于其他MQ有啥优势?
Kafka 相比于 RocketMQ 有以下几个优势: 1. 高吞吐量和低延迟: Kafka 以其出色的 I/O 性能和分布式架构设计,能够实现极高的吞吐量,每秒数百万的消息处理能力,适合大规模数据流处理。同时,Kafka 设计为…...
![](https://i-blog.csdnimg.cn/direct/7d7287928c804e22890f8d55bd6b9f10.png)
技能 | postman接口测试工具安装及使用
哈喽小伙伴们大家好!今天来给大家分享一款轻量级,高效好用的接口测试工具-postman. Postman是一个流行的API开发工具,主要用于测试、开发和文档化API。以下是关于Postman的介绍及其主要使用场景: Postman介绍: 1. 功能丰富的API客户端&#…...
![](https://img-blog.csdnimg.cn/img_convert/7f8429486d07d09ef37e1662599e0d75.jpeg)
移动UI:任务中心的作用,该如何设计更合理?
任务中心是移动应用中用于展示和管理用户待办任务、提醒事项、用户福利、打卡签到等内容的功能模块。合理设计任务中心可以提升用户体验和工作效率。 以下是一些设计任务中心的合理建议: 1. 易于查看和管理: 任务中心的设计应该使用户能够快速、直观地…...
![](https://i-blog.csdnimg.cn/direct/7a9b5e6434504a2992a41653b9d803e2.png)
pytorch学习(十)优化函数
优化函数主要有,SGD, Adam,RMSProp这三种,并且有lr学习率,momentum动量,betas等参数需要设置。 通过这篇文章,可以学到pytorch中的优化函数的使用。 1.代码 代码参考《python深度学习-基于pytorch》&…...
![](https://www.ngui.cc/images/no-images.jpg)
Ubuntu22.04:安装Samba
1.安装Samba服务 $ sudo apt install samba samba-common 2.创建共享目录 $ mkdir /home/xxx/samba $ chmod 777 /home/xxx/samba 3.将用户加入到Samba服务中 $ sudo smbpasswd -a xxx 设置用户xxx访问Samba的密码 4.配置Samba服务 $ sudo vi /etc/samba/smb.conf 在最后加入 …...
![](https://www.ngui.cc/images/no-images.jpg)
Powershell 使用介绍
0 Preface/Foreword 0.1 参考文档 Starting Windows PowerShell - PowerShell | Microsoft Learn 1 Powershell 介绍 2 命令介绍 2.1 新建文件夹 New-Item -Path C:\GitLab-Runner -ItemType Directory 2.2 切换路径 cd C:\GitLab-Runner 2.3 下载文件 Invoke-WebRequ…...
![](https://i-blog.csdnimg.cn/direct/72c06e795aa84725bcf8574f86c055b1.png)
【Langchain大语言模型开发教程】记忆
🔗 LangChain for LLM Application Development - DeepLearning.AI 学习目标 1、Langchain的历史记忆 ConversationBufferMemory 2、基于窗口限制的临时记忆 ConversationBufferWindowMemory 3、基于Token数量的临时记忆 ConversationTokenBufferMemory 4、基于历史…...
![](https://i-blog.csdnimg.cn/direct/46d022bb16da4ec8a90cff31daba787c.png)
最新Qt6的下载与成功安装详细介绍
引言 Qt6 是一款强大的跨平台应用程序开发框架,支持多种编程语言,最常用的是C。Qt6带来了许多改进和新功能,包括对C17的支持、增强的QML和UI技术、新的图形架构,以及构建系统方面的革新。本文将指导你如何在Windows平台上下载和安…...
![](https://i-blog.csdnimg.cn/direct/a66844031ad54a87b30610019318bd87.png)
LeetCode 热题 HOT 100 (001/100)【宇宙最简单版】
【链表】 No. 0160 相交链表 【简单】👉力扣对应题目指路 希望对你有帮助呀!!💜💜 如有更好理解的思路,欢迎大家留言补充 ~ 一起加油叭 💦 欢迎关注、订阅专栏 【力扣详解】谢谢你的支持&#x…...
![](https://i-blog.csdnimg.cn/direct/51b999f9b8fa4e6aab1a6acf065ecfe6.png)
Ubantu 使用 docker 配置 + 远程部署 + 远程开发
大家好我是苏麟 , Ubantu 一些配置 . 视频 : 服务器很贵?搞台虚拟机玩玩!保姆级 Linux 远程开发教程_哔哩哔哩_bilibili Docker安装及配置 安装命令 : sudo apt install docker.io 查看版本号 : docker -v 查看虚拟机地址命令 : ifconfig 虚拟机地址 或…...
![](https://i-blog.csdnimg.cn/direct/599da8fafa014b328060e34bb705a5e4.png)
应用层自定义协议与序列化
个人主页:Lei宝啊 愿所有美好如期而遇 协议 简单来说,就是通信双方约定好的结构化的数据。 序列化与反序列化 我们通过一个问题引入这个概念,假如我们要实现一个网络版的计算器,那么现在有两种方案,第一种&#x…...
![](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2F86156%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image001.png&pos_id=fU7j6cXS)
Python学习笔记—100页Opencv详细讲解教程
目录 1 创建和显示窗口... - 4 - 2 加载显示图片... - 6 - 3 保存图片... - 7 - 4 视频采集... - 8 - 5视频录制... - 11 - 6 控制鼠标... - 12 - 7 TrackBar 控件... - 14 - 8.RGB和BGR颜色空间... - 16 - 9.HSV和HSL和YUV.. - 17 - 10 颜色空间的转化... - 18 - …...
![](https://i-blog.csdnimg.cn/direct/c5f43fde8ba340d0a6fa017a7a2e0279.webp)
C语言·分支和循环语句(超详细系列·全面总结)
前言:Hello大家好😘,我是心跳sy,为了更好地形成一个学习c语言的体系,最近将会更新关于c语言语法基础的知识,今天更新一下分支循环语句的知识点,我们一起来看看吧~ 目录 一、什么是语句…...
![](https://i-blog.csdnimg.cn/direct/d55d1af66768477fbb4f2e0d9e3c6fe7.png)
Gateway源码分析:路由Route、断言Predicate、Filter
文章目录 源码总流程图说明GateWayAutoConfigurationDispatcherHandlergetHandler()handleRequestWith()RouteToRequestUrlFilterReactiveLoadBalancerClientFilterNettyRoutingFilter 补充知识适配器模式 详细流程图 源码总流程图 在线总流程图 说明 Gateway的版本使用的是…...
![](https://i-blog.csdnimg.cn/direct/b9975b73045e48db8f9b1e1050df9a31.png)
ARM体系结构和接口技术(十)按键中断实验①
一、按键中断实验 (一)分析按键电路图 (二)芯片手册 二、按键中断实验分析 注:NVIC----Cortx-M核GIC----Cortx-A核 (一)查看所有外设的总线以及寄存器基地址 注:GIC的总线是A7核的…...
![](https://i-blog.csdnimg.cn/direct/63ca54b14e0e48d5afe93d1a73550fcc.png)
PostgreSQL使用(二)——插入、更新、删除数据
说明:本文介绍PostgreSQL的DML语言; 插入数据 -- 1.全字段插入,字段名可以省略 insert into tb_student values (1, 张三, 1990-01-01, 88.88);-- 2.部分字段插入,字段名必须写全 insert into tb_student (id, name) values (2,…...
![](https://img-blog.csdnimg.cn/2021030414460055.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2xpdXpoZW5oZTE5ODg=,size_16,color_FFFFFF,t_70)
东莞做网站首选企业铭/小说搜索风云榜
前言 很多时候我们需要在页面中引用外部的css文件,下面将介绍一下如何通过Jquery动态加载css文件 方式一(Jquery) var cssFileUrl../css/home.css; if (cssFileUrl) {$("<link>").attr({rel: "stylesheet",type: …...
![](/images/no-images.jpg)
织梦网暂时关闭网站/网络推广营销方式
在我们的项目中,常常会碰到图片与文字混排的问题。解决这类问题的方法有非常多,本文给出的方法不是唯一的。仅仅有依据实际场景才干找到更适合的方法。 本文主要通过xml布局来实现图片与文字的混排(水平排列)。1.利用TextView实现…...
![](https://img-blog.csdnimg.cn/20210529121152253.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzYxMzg0OQ==,size_16,color_FFFFFF,t_70)
温州企业网站建设费用/广告网络
目录 创建Vue对象 1. 实例选项的使用 2. components的使用 3. data的正确打开方式 v-for(响应式) 1.迭代普通数组 2.迭代对象数组 3.迭代对象 4.迭代数字 创建Vue对象 1. 实例选项的使用 var my new Vue({el: #app,template: <div>{{ f…...
![](http://www.wjyyy.top/wp-content/uploads/2018/08/201808162000.png)
档案室建设网站/百度免费推广登录入口
极其考思维的好题 题目背景 众所周知,$\mathrm{Zdrcl}$是一名天天$\mathrm{AK}$的高水平选手。 作为一民长者,为了向大家讲述自己$\mathrm{AK}$的经验,他决定在一个礼堂里为大家举办一场演讲。 题目描述 这个礼堂拥有$N\times M$个位子&#…...
![](https://img-blog.csdnimg.cn/20210203101003450.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjIwNjA3NQ==,size_16,color_FFFFFF,t_70)
用wordpress做官网/旺道seo优化软件
Tensorflow2.0—SSD网络原理及代码解析(二)-锚点框的生成 分析完SSD网络的原理之后,一起来看看代码吧~ 代码转载于:https://github.com/bubbliiiing/ssd-tf2 在train.py中有一行代码: priors get_anchors((input_shape[0], inp…...
![](/images/no-images.jpg)
一级a做爰片365网站/网络推广公司介绍
mysql的1045解决方法参考文章: (1)mysql的1045解决方法 (2)https://www.cnblogs.com/xuwq/p/4189209.html 备忘一下。...