数据分析——Python网络爬虫(三){爬虫基本原理}
爬虫基本原理
- 爬虫基本流程
- 拉取什么数据
- JavaScript渲染页面
- cookies
- 爬虫代理
- 检查robots.txt
- 爬虫的攻与防
爬虫基本流程
• 获取网页源代码:通过库来实现,urllib,requests等实现http请求
• 提取信息:分析网页源代码,提取数据,如正则表达式,beautiful soup,pyquery,lxml等
• 保存数据:保存为txt,json或数据库
拉取什么数据
• Html代码
• Json字符串(api接口,手机端大部分是这种数据格式)
• 二进制文件(图片,音频,视频等)
• 各种扩展名的文件:css,JavaScript,各种配置文件等
JavaScript渲染页面
• 用urllib或requests抓取网页时,得到的源代码和浏览器中看到的 不一样
• 越来越多的网页采用ajax、前端模块化工具来构建,整个网页都JavaScript渲染出来的
• 需要分析ajax接口,或使用selenium等库实现模拟JavaScript渲染
• 页面渲染
cookies
• cookies在浏览器端,在访问动态网页时候浏览器会自动附带上它发送给服务器,服务器通过识别cookies并鉴定其是哪个用户,判断其是否登录状态,然后返回对应的响应
• cookies
爬虫代理
• 代理网络用户去取得网络信息
代理的作用:突破自身IP访问限制,访问团体内部资源,提高访问 速度,隐藏真实IP
• 爬虫代理可以获得较好的爬取效果(防止被封禁或输入验证码登录)
检查robots.txt
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面
豆瓣的robots.txt
爬虫的攻与防
相关文章:
![](https://img-blog.csdnimg.cn/20210622001025592.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQzNTI0NDc1,size_16,color_FFFFFF,t_70)
数据分析——Python网络爬虫(三){爬虫基本原理}
爬虫基本原理 爬虫基本流程拉取什么数据JavaScript渲染页面cookies爬虫代理检查robots.txt爬虫的攻与防 爬虫基本流程 • 获取网页源代码:通过库来实现,urllib,requests等实现http请求 • 提取信息:分析网页源代码࿰…...
![](https://i-blog.csdnimg.cn/direct/16d59b9ffb2a41aebaeabab28c2a270e.png)
Linux 忘记root密码,通过单用户模式修改
银河麒麟桌面操作系统 V10(sp1)”忘记用户密码,需要修改用户密码所写,可用于 X86 架构和 arm 架构。 2. 选择第一项,在上图界面按“e”键进行编辑修改。 3. 在以 linux 开头这行的行末,添加“init/bin/bas…...
![](https://www.ngui.cc/images/no-images.jpg)
安卓热门面试题二
什么是AndroidManifest.xml文件?它包含了哪些重要信息? AndroidManifest.xml文件是Android应用程序的全局配置文件,每个Android应用程序的根目录中都必须包含一个AndroidManifest.xml文件,且文件名不能修改。这个文件对于Android…...
![](https://i-blog.csdnimg.cn/direct/4060915f817a433bbfeb5e58001e1b69.png)
agents 分类
一、分类 自动agent、半自动agent、领域、自定义sop和支持人为干预的agent。 先泼个冷水,目前这些agent项目都是实验品,发展还没有做知识库问答相关开源项目那么成熟, 二、全自动agent autoGPT、loopGPT、babyAGI 全自动agent就是人类不可…...
![](https://www.ngui.cc/images/no-images.jpg)
【期末考试复习】概率论与数理统计(知识点模式 - 复习题2)
题目: 设随机变量 X X X 的概率密度函数为 f ( x ) a b x f(x) a bx f(x)abx,其中 0 < x ≤ 1 0 < x \leq 1 0<x≤1; f ( x ) 0 f(x) 0 f(x)0,在其他情况下。已知 P ( X ≤ 1 / 2 ) 3 / 8 P(X \leq 1/2) 3/…...
![](https://www.ngui.cc/images/no-images.jpg)
Jetpack Compose实现一个简单的微信UI
https://blog.csdn.net/News53231323/article/details/128509048 https://franzliszt1847.blog.csdn.net/article/details/129344822...
![](https://i-blog.csdnimg.cn/direct/acca1606deb947afabc71f531a360a3f.png)
myeclipse开发ssm框架项目图书管理系统 mysql数据库web计算机毕业设计项目
摘 要 随着计算机的广泛应用,其逐步成为现代化的标志。图书馆的信息量也会越来越大,因此需要对图书信息、借书信息、还书信息等进行管理,及时了解各个环节中信息的变更,要对因此而产生的单据进行及时的处理,为了提高高…...
![](https://i-blog.csdnimg.cn/direct/be00ec60530f4c899c104e6a1482fe3f.png)
网络安全防御 -- 防火墙安全策略用户认证综合实验
实验拓扑: 实验目的: 1、DMZ区内的服务器,办公区仅能在办公时间内(9:00-18:00)可以访问,生产区的设备全天可以访问。 2、生产区不允许访问互联网,办公区和游客区允许访问互联网。 3、办公区设备10.0.2.10不允许访问DM…...
![](https://i-blog.csdnimg.cn/direct/61c11a7f433e49b7829cf5de9518b8b5.png)
捷配笔记-PCB阻焊颜色对产品有什么影响?
阻焊层也称为阻焊层或阻焊剂。它是一种薄的聚合物层,应用于(PCB)。阻焊层的目的是保护PCB表面,并有助于防止焊桥。焊桥是两个导体之间的无意连接,通常是由于存在一小块焊料。需要注意的是,阻焊层被视为其单…...
![](https://img-blog.csdnimg.cn/img_convert/5868a12d382260b22a424782b55f5dd2.png)
网信大数据信用报告查询怎么查?网信大数据有什么作用?
随着互联网的快速发展,大数据技术已经广泛应用于各行各业。其中,网信大数据信用报告查询成为了许多人关注的焦点。那么,如何查询网信大数据信用报告呢?网信大数据又有哪些作用呢?本文将为您一一解答。 一、如何查询网信大数据信用报告? 要…...
![](https://www.ngui.cc/images/no-images.jpg)
【Vue】vue-element-admin组件化功能
1. 组件的封装 在vue-element-admin中,每个功能区域或UI元素都被封装成一个或多个Vue组件。这些组件可以是简单的按钮、输入框,也可以是复杂的表格、表单或页面布局。每个组件都包含了其模板(HTML结构)、逻辑(JavaScr…...
![](https://img-blog.csdnimg.cn/img_convert/f33b9bc571cdf8322c5a56011f9849be.png)
[论文笔记]涨点近5%! 以内容中心的检索增强生成可扩展的级联框架:Pistis-RAG
引言 今天带来一篇较新RAG的论文笔记:Pistis-RAG: A Scalable Cascading Framework Towards Content-Centric Retrieval-Augmented Generation。 在希腊神话中,Pistis象征着诚信、信任和可靠性。受到这些原则的启发,Pistis-RAG是一个可扩展…...
![](https://img-blog.csdnimg.cn/direct/7ece7527d5e74f44b068758203efc81c.png)
时钟系统框图(时钟树)解析
时钟系统框图(时钟树)解析 文章目录 时钟系统框图(时钟树)解析1、时钟树2、 4个时钟源:HSI、HSE、LSI、LSE3、PLL锁相环倍频输出4、系统时钟的来源5、Enable CSS(时钟监视系统)6、几个重要的时钟…...
![](https://www.ngui.cc/images/no-images.jpg)
DNS缓存详解
目录 一、缓存分类 1. 客户端缓存(以浏览器缓存为列) 2. 操作系统缓存 3.本地hosts文件静态映射 二、DNS查找优先顺序 1.浏览器查找顺序 2.cmd ping查找顺序(非浏览器) 一、缓存分类 在一台终端上,DNS缓存可以…...
![](https://i-blog.csdnimg.cn/direct/384f19a5b2a64ec195b11a6d45957dee.png)
一款好用的特殊字符处理工具
跟mybatis代码的时候,偶然发现的一款特殊字符处理工具java.lang.StringTokenizer。平常,我们看到的mybatis mapper.xml里面各种换行各种缩进,但日志文件里面的sql都是整整齐齐的。没有换行符,缩进等。就是利用该工具做的格式化处理…...
![](https://i-blog.csdnimg.cn/direct/1e5119a6623941a2aaf780681deceff2.png)
双重锁定:零信任沙箱 完美的安全保障
在当今数字化的世界中,企业的数据安全已成为至关重要的一环。随着云计算、移动互联和物联网等新技术的不断发展,传统的安全边界逐渐模糊,访问控制模式的局限性也日益凸显。为了应对这些挑战,零信任安全模型和苏州深信达的SDC沙盒技…...
![](https://i-blog.csdnimg.cn/direct/243dbb4fdd0c4e8f9aaa793d64bfb3c1.png)
【小沐学Python】在线web数据可视化Python库:Bokeh
文章目录 1、简介2、安装3、测试3.1 创建折线图3.2 添加和自定义渲染器3.3 添加图例、文本和批注3.4 自定义您的绘图3.5 矢量化字形属性3.6 合并绘图3.7 显示和导出3.8 提供和筛选数据3.9 使用小部件3.10 嵌入Bokeh图表到Flask应用程序 结语 1、简介 https://bokeh.org/ https…...
![](https://i-blog.csdnimg.cn/direct/1de3d4a9717441318c814f3d4714884c.png)
GitHub 站点打不开
遇到的问题 您是否遇到过GitHub网站打不开的情况,正如下图所示: 解决方案 以下是一些常见的解决方案: 1. 检查网络连接 确保你的设备已连接到互联网。尝试访问其他网站,确保不是你的网络问题。 C:\Vinca>ping github.…...
![](https://www.ngui.cc/images/no-images.jpg)
前端开发工具
Lodash 有普通的 CommonJS 版本(通常称为 lodash)和 ES6 模块版本(称为 lodash-es)。它们的主要区别包括: 模块化:lodash 是传统的 CommonJS 模块,可使用 require 或 import 引入;lo…...
![](https://i-blog.csdnimg.cn/direct/6b43c86519884d3387b411244dd8d386.png)
Everything搜索无法搜索到桌面的文件(无法检索C盘 或 特定路径的文件)
现象描述 在Everything搜索框中输入桌面已存在的文件或随便已知位置的文件,无法找到。 搜索时检索结果中明显缺少部分磁盘位置的,例如无法检索C盘,任意关键字搜索时结果中没有位于C盘的,无论怎样都搜不到C盘文件。 解决方法 在…...
![](https://www.ngui.cc/images/no-images.jpg)
React@16.x(52)Redux@4.x(1)- 核心概念
目录 1,MVC2,前端MVC的困难3,Flux4,Redux 1,MVC 是一个解决方案,用于降低 UI 和数据关联的复杂度。 在早期前后端未做分离时,服务端会响应一个完整的HTML,包含页面需要的所有数据。而…...
![](https://img-blog.csdnimg.cn/direct/15f11b9000784d40a96da05717b0d9b0.jpeg)
pytest系列——pytest_runtest_makereport钩子函数获取测试用例执行结果
前言 pytest测试框架提供的很多钩子函数方便我们对测试框架进行二次开发,可以根据自己的需求进行改造。 例如:钩子方法:pytest_runtest_makereport ,可以更清晰的了解测试用例的执行过程,并获取到每个测试用例的执行…...
![](https://www.ngui.cc/images/no-images.jpg)
Oracle数据库模式对象
文章目录 Oracle数据库模式对象 Oracle数据库模式对象 1、模式(schema)是一个数据库对象的集合。模式为一个数据库用户所有,与用户名字相同。通俗来说,模式对象就是一个用户。 2、 模式对象包括:聚簇、约束、数据库链接、触发器、维、外部过…...
![](https://img-blog.csdnimg.cn/img_convert/0a888d629aaaf08211fd85c48c29ef4e.jpeg)
各地户外分散视频监控点位,如何实现远程集中实时监看?
公司业务涉及视频监控项目承包搭建,此前某个项目需求是为某林业公司提供视频监控解决方案,需要实现各地视频摄像头的集中实时监看,以防止国家储备林的盗砍、盗伐行为。 公司原计划采用运营商专线连接各个视频监控点位,实现远程视…...
![](https://www.ngui.cc/images/no-images.jpg)
Vue笔记12-新的组件
Fragment 在Vue2中,template标签内,必须有一个div标签,作为根标签。 在Vue3中,可以没有div根标签,如果没有的话,Vue3会将多个标签包装在一个Fragment虚拟元素里。 这么做的目的:减少标签的层级…...
![](https://i-blog.csdnimg.cn/direct/f3796febbb1941898653b842f11f64e7.png)
PySide6开发桌面程序,PySide6入门实战(下)
文章目录 系列文章索引六、样式表qss1、概述2、通用组件常用样式3、QLineEdit组件常用样式4、QpushButton常用样式5、QSlider常用样式6、QComboBox常用样式7、QProgressBar常用样式8、QMenu菜单样式9、qss选择器10、使用qss文件动态加载qss11、QDarkStyle夜间模式12、禁止子窗口…...
![](https://img-blog.csdnimg.cn/direct/418b4b1527ce43a8b8d63ef9c89fc17f.jpeg)
Java面试八股之Redis有哪些数据类型?底层实现分别是什么
Redis有哪些数据类型?底层实现分别是什么 Redis数据类型概述 Redis作为一款键值存储系统,提供了丰富多样的数据类型以满足不同场景的需求。以下是Redis支持的主要数据类型及其基本用途: String(字符串) 存储单个键…...
![](https://i-blog.csdnimg.cn/direct/48fae47f4f404adaa562475797a79081.png)
分布式应用系统设计:即时消息系统
即时消息(IM)系统,涉及:站内消息系统 组件如下; 客户端: WEB页面,IM桌面客户端。通过WebSocket 跟ChatService后端服务连接 Chat Service: 提供WebSocket接口,并保持跟“客户端”状态的维护。…...
![](https://www.ngui.cc/images/no-images.jpg)
【YashanDB知识库】调整NUMBER精度,再执行统计信息收集高级包偶现数据库异常退出
【问题分类】功能使用 【关键字】NUMBER类型精度修改,统计信息收集 【问题描述】存量的表将NUMBER类型的字段精度从小精度调整为大精度时,数据库收集这张业务表的统计信息时,会导致数据库异常退出。 【问题原因分析】YashanDB NUMBER字段精…...
![](https://i-blog.csdnimg.cn/direct/6569bb8782c947de8a780c34db6f09d6.png)
ComfyUI+MuseV+MuseTalk图片数字人
电脑配置 GPU12G,如果自己电脑配置不够,选择云gpu,我就是用的这个,自己电脑太老配置跟不上 环境: Python 3.11.8 torch 2.2.1 cuda_12.1 资源提供: 链接:https://pan.baidu.com/s/1_idZbF…...
![](/images/no-images.jpg)
品牌网站建设特色大蝌蚪/正规的计算机培训机构
这两个问题非常普遍,但是你几乎不会在网上找到什么答案,这两个问题是: 1.你曾经在VMWare中执行nmap,但没有成功!请看《 NMAP through VMWare Workstation NAT Interface》 解决方案,请看《 千万不要在VMWare的NAT模式下…...
![](https://www.oschina.net/img/hot3.png)
wordpress图片下载主题/北京口碑最好的教育机构
2019独角兽企业重金招聘Python工程师标准>>> 相信作为一个开发人员应该对XML与JSON 非常熟悉。关于两者的介绍与区别网上已经有很多资料,java对于XML的解析也有很多工具包,主要解析的方式有三种: 1.DOM解析方式:适用于…...
![](/images/no-images.jpg)
中国体育直播在线观看斯诺克赛/西安seo网站关键词
AngularJS 1.2版本中提供了Controller As语法,简单说就是可以在Controller中使用this来替代$scope,使得Controller更像一个传统的JS类,相对于$scope的继承树要理解上要简单一些。 基础用法 传统的Controller是这样写的: app.contr…...
![](https://img-blog.csdnimg.cn/58d07877c6a84697b1902f4c759b0418.png)
wordpress登陆后查看/百度应用市场app下载
正点原子开拓者FPGA开发板上自带了一枚无源蜂鸣器,本篇将记录如何通过按键来控制蜂鸣器的开关。 功能描述 初始蜂鸣器不响,按键按一下蜂鸣器开始响,再按一下蜂鸣器停止。 模块结构 本次采用了三个模块,一个顶层模块,…...
![](https://img-blog.csdnimg.cn/img_convert/f6e1681a7eef6fd21327a1161700fc19.png)
网站焦点图怎么做/如何做好网络推广销售
基于集成学习的用户流失预测并利用shap进行特征解释 小P:小H,如果我只想尽可能的提高准确率,有什么好的办法吗? 小H:优化数据、调参侠、集成学习都可以啊 小P:什么是集成学习啊,听起来就很厉害的…...
![](/images/no-images.jpg)
平湖新埭哪里有做网站的/外链发布平台
电脑史话(40)——窗含千秋雪凡使用过IBM PC机的人都知道,在DOS操作系统的控制下,无论让电脑干什么,都必须记住各种操作命令,在键盘上不停敲打,输入一大串文字字符,带来诸多不便。 1985年11月,微…...