1、爬⾍概述
1. 什么是爬虫?
爬虫(Web Crawler)是一种通过编写程序自动访问并提取互联网上数据的技术。爬虫可以帮助我们在浏览网页时自动收集和保存一些有用的数据,例如图片、视频和文本信息。简单来说,爬虫就是自动化的浏览器。
例如:
- 在浏览一些美丽的自然风景图片时,想要保存这些图片作为桌面壁纸。
- 在浏览到一些行业的统计数据时,希望能保存下来进行分析。
- 在发现一些有趣的新闻文章时,想要保存并方便日后阅读。
- 在找到一些有用的教程视频时,希望下载并保存以便离线学习。
恭喜你,如果你有以上需求,本课程将非常适合你。因为爬虫就是通过编写程序来自动化获取互联网上的资源(如图片、音频、视频和数据)。
2. 爬虫和Python
爬虫一定要用Python吗?当然不!Java、C等语言也可以实现爬虫。请记住,编程语言只是工具,抓到数据才是你的目的。就像吃饭一样,可以用叉子,也可以用筷子,最终的结果都是你能吃到饭。
那为什么大多数人喜欢用Python呢?答案很简单:因为Python写爬虫实在是太方便了。你可以想象一下,为什么吃米饭不用刀叉而用筷子?因为简单,好用!
Python是众多编程语言中,初学者上手最快,语法最简单的。更重要的是,Python有非常多适合爬虫的第三方支持库。就好比,你用筷子吃饭,我还送你一个私人厨师,帮你把饭菜都准备好。这样吃饭是不是更爽了,更容易了?
所以,选择Python来写爬虫,就像选择了一条康庄大道,省时省力,还能事半功倍。
3. 爬虫是否合法?
首先,爬虫在法律上是不被禁止的。也就是说,法律允许爬虫的存在。但是,爬虫也具有违法的风险。就像菜刀一样,法律允许菜刀的存在,但如果你用它来伤人,那就违反了法律。正如王欣所说,技术是无罪的,关键在于你用它来做什么。例如,有些人利用爬虫结合黑客技术,每秒钟对着bilibili发送大量请求,这显然是不被允许的。
爬虫分为善意的爬虫和恶意的爬虫:
- 善意的爬虫:不破坏被爬取网站的资源(正常访问,频率适当,不窃取用户隐私)。
- 恶意的爬虫:影响网站的正常运营(如抢票、秒杀,疯狂获取网站资源导致网站宕机)。
真实案例
全国首例短视频爬虫案宣判:涉爬虫的刑法案件及刑事法律规制: 全国首例短视频爬虫案宣判:涉爬虫的刑法案件及刑事法律规制 - 21经济网
** 建议**
为了避免法律风险,我们在编写和使用爬虫时应当遵循以下原则:
- 遵守法律法规:了解和遵守目标网站所在国家和地区的法律法规。
- 尊重网站的robots.txt协议:了解哪些内容允许爬取,哪些内容不允许。
- 控制爬虫的访问频率:避免对网站服务器造成负担,通常可以设置延时和频率限制。
- 不窃取敏感信息:不要爬取和传播涉及用户隐私和商业机密的数据。
综上所述,我们应当安分守己,时常优化自己的爬虫程序,避免干扰网站的正常运行。在使用爬取到的数据时,发现涉及用户隐私和商业机密等敏感内容时,一定要及时终止爬取和传播。
4. 爬虫的矛与盾
在网络世界里,爬虫和反爬虫就像是一场永无止境的猫捉老鼠游戏。网站不希望自己的数据被随意抓取,于是他们制定了各种反爬机制。而聪明的程序员们,则不断开发新的反反爬策略来绕过这些障碍。就像武林高手之间的过招,招式不断升级。
4.1 反爬机制
网站为了防止爬虫程序抓取数据,会使用多种策略和技术手段,比如:
- 限制访问频率:如果你的爬虫访问速度过快,网站会怀疑你不是人类,从而封锁你的IP地址。
- 检测用户行为:网站会检查你的请求是否像人类用户一样,比如是否有鼠标移动、点击等行为。
- 验证码:强制要求输入验证码,以确认访问者是人类而不是爬虫。
4.2 反反爬策略
而程序员们为了获取数据,也会使用各种策略和技术手段来绕过这些反爬机制,比如:
- 使用代理IP:通过不断更换IP地址来避免被封锁。
- 模拟用户行为:让爬虫程序模拟人类的浏览行为,比如随机点击、移动鼠标等。
- 破解验证码:使用机器学习算法自动识别和输入验证码。
4.3 robots.txt协议
这就像一份网络世界的“君子协议”。网站在自己的根目录下放置一份名为robots.txt的文件,告诉爬虫哪些数据可以抓取,哪些数据不能抓取。遵守这个协议的爬虫是“君子”,会按规矩办事;不遵守这个协议的爬虫则是“侠客”,会寻找其他方式获取数据。
示例:
- 君子爬虫:先访问https://www.example.com/robots.txt,看网站允许爬取哪些内容,然后按照规则抓取。
- 侠客爬虫:直接绕过robots.txt,利用各种反反爬手段抓取数据。
无论你是选择做“君子”还是“侠客”,都要记住,合理使用爬虫技术,不滥用资源,不侵犯他人隐私和商业机密,才能成为一名负责任的爬虫开发者。
相关文章:
![](https://img-blog.csdnimg.cn/img_convert/4aa78de38d3aaaa79156eb42b4ffa9fd.png)
1、爬⾍概述
1. 什么是爬虫? 爬虫(Web Crawler)是一种通过编写程序自动访问并提取互联网上数据的技术。爬虫可以帮助我们在浏览网页时自动收集和保存一些有用的数据,例如图片、视频和文本信息。简单来说,爬虫就是自动化的浏览器。…...
![](https://img-blog.csdnimg.cn/img_convert/8d07ccaed00b493f9ec7bb8b760498c1.jpeg)
科普文:微服务之分布式链路追踪SkyWalking单点服务搭建
1. 概述 1.1 概念 SkyWalking 是什么? SkyWalking 极简入门 | Apache SkyWalking FROM Apache SkyWalking 分布式系统的应用程序性能监视工具,专为微服务、云原生架构和基于容器(Docker、K8s、Mesos)架构而设计。 提供分布式追…...
![](https://i-blog.csdnimg.cn/direct/1ceb29fb85ca45aaaf20df86ff43e80c.png)
R 语言学习教程,从入门到精通,R的安装与环境的配置(3)
1、R 基础语法 一门新的语言学习一般是从输出 “Hello, World!” 程序开始,R 语言的 “Hello, World!” 程序代码如下: myString <- "Hello, World!" print ( myString )以上示例将字符串 “Hello, World!” 赋值给 myString 变量&#x…...
![](https://img-blog.csdnimg.cn/img_convert/472cbe9822dc4e9a8a8cb3a95a00f9ab.png)
【Pageadmin】之cms漏洞
方法一:上传模块拿webshell 首页如下 第一步:访问admin/login,登录后台 第二步:使用哥斯拉工具生成payload 然后自动生成了一个asp的payload 第三步:上传文件 将asp文件压缩为压缩包,上传。 解压访问1.asp…...
![](https://img-blog.csdnimg.cn/img_convert/2bec56c360ae765bc62f5bbb82667980.jpeg)
AIGC重塑设施农业:让农事操作更智能,生产效率更高
设施农业是现代农业的重要组成部分,随着人工智能等前沿技术的快速发展,这个领域迎来了新的变革机遇。尤其是大语言模型(Large Language Model,LLM)技术的崛起,其强大的语言理解和知识汇聚能力,为设施农业智能化发展带来了新的想象空间。本文将深入探讨大模型技术在设施农业生产…...
![](https://www.ngui.cc/images/no-images.jpg)
netty应用-手写RPC
文章目录 手写RPC之案例定位与通信过程介绍RPC框架案例定位服务端与客户端架构通信过程1. 服务注册与发现2. 请求序列化与传输3. 请求处理与响应4. 响应反序列化与结果处理实现细节1. 服务端2. 客户端技术选型关键挑战总结手写RPC之请求响应通信协议定制协议结构示例消息头格式…...
![](https://i-blog.csdnimg.cn/direct/1f07eebdae0147a68d94ab4b1c155016.png)
私域流量变迁与精细移动化趋势下的AI智能名片小程序源码应用探索
摘要:随着移动互联网技术的飞速发展,私域流量的价值日益凸显,成为企业营销战略的重要组成部分。私域流量的精细化和移动化趋势不仅改变了传统的营销格局,也为新兴技术的应用提供了广阔空间。本文深入探讨了私域流量的变迁历程&…...
![](https://i-blog.csdnimg.cn/direct/ea75cbfad3f2492288ed319ef78efb7c.png)
数据结构初阶之排序(下)
前言 上一期内容中我们了解了基本排序中的插入与选择排序,今天我将为大家带来剩下的几种排序算法 快速排序 快速排序是Hoare于1962年提出的⼀种⼆叉树结构的交换排序⽅法,其基本思想为:任取待排序元素序列中的某元素作为基准值,…...
![](https://i-blog.csdnimg.cn/direct/57eb55e51923440da62e88455e5e8d2c.png)
RGB图像的读取与保存
目录 1、安装imageio 2、读取照片 3、保存照片 4、resize 5、示例代码 1、安装imageio pip install imageio -i https://pypi.tuna.tsinghua.edu.cn/simple 2、读取照片 import imageio img imageio.imread(image_path) 3、保存照片 import imageio import numpy as…...
![](https://www.ngui.cc/images/no-images.jpg)
江协科技51单片机学习- p35 AD/DA模拟/数字采样
🚀write in front🚀 🔎大家好,我是黄桃罐头,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流 🎁欢迎各位→点赞👍 收藏⭐️ 留言📝…...
![](https://i-blog.csdnimg.cn/direct/639f2de26cdb4b078bb92620c63fd2fa.png)
C#裁剪图像的几种方法总结
前言 我们在上位机软件开发过程中经常需要裁剪图像,本文就是对c#中常见的裁剪图像方法进行总结。 1、克隆 直接调用Bitmap的Clone函数,然后指定需要裁剪的区域即可裁剪图像,该种方法不会损失精度 public static Bitmap CropImage_Clone(Bi…...
![](https://i-blog.csdnimg.cn/direct/8128e248c26641cca3e6e928d12cc68f.png)
被遗忘的哑终端 —— 键盘键位演变的启发者
注:机翻,未校对。 The Forgotten World of Dumb Terminals 被遗忘的哑终端世界 A quick journey through the lost age of “glass teletypes.” 快速穿越失落的“玻璃电传打字机”时代。 From the earliest days of digital computers, researchers o…...
![](https://i-blog.csdnimg.cn/direct/fb4001e19df64e3b900d470f3bdbc9b0.gif)
APACHE安装与应用
💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:Linux运维老纪的首页…...
![](https://img-blog.csdnimg.cn/img_convert/8a69c419039439c06abd90a8997b5ea9.png)
预警器件控制思考
预警器件控制思考 最小示例思想 当读取到环境信息与环境阈值的时候, 我们预警系统就要根据这些信息做出判断,是否要启动器件。 最简单的就是, 举温度temp的例子, temp(温度)与temp_th(阈值), 通过判断, 得出是否要启动器件. 如果在一段时间内, 一直是环境异常, 我…...
![](https://www.ngui.cc/images/no-images.jpg)
[Day 43] 區塊鏈與人工智能的聯動應用:理論、技術與實踐
區塊鏈的隱私保護機制 隨著區塊鏈技術的廣泛應用,隱私保護成為了一個至關重要的問題。區塊鏈以其去中心化和透明性的特點,為數據管理和交易提供了新的方法。然而,這些特點也帶來了新的挑戰,尤其是在隱私保護方面。本文將深入探討…...
![](https://www.ngui.cc/images/no-images.jpg)
【星海随笔】路由器的启动过程
路由器的启动过程 1.加电之后,ROM运行加电自检程序(Post),检查路由器的处理器、接口、内存等硬件设备。2.执行路由器中的启动程序(Bootstrap),搜索操作系统。路由器操作系统扩张部分可以从Flash RAM中装入,也可从 TFT…...
![](https://i-blog.csdnimg.cn/direct/41ce485b4c6d41ffa720e73b4d5ec559.png)
[翻译] Asset Administration Shells
关于资产管理外壳 (AAS) 资产管理外壳 (AAS) 是工业4.0中的关键概念,为产品、资源(如设备)和过程提供信息隐藏和更高层次的抽象。AAS 是技术和设备无关的机器可读描述,提供访问资产属性和功能的统一接口。与现有解决方案不同&…...
![](https://www.ngui.cc/images/no-images.jpg)
linux 常用磁盘维护命令
badblocks 功能说明:检查磁盘装置中损坏的区块。 语 法:badblocks [-svw][-b <区块大小>][-o <输出文件>][磁盘装置][磁盘区块数][启始区块] 补充说明:执行指令时须指定所要检查的磁盘装置,及此装置的磁盘区块数。…...
![](https://i-blog.csdnimg.cn/direct/bfa370bba4c24d8fbf2494a82095a062.png)
滑动窗口大总结!!!妈妈以后再也不担心我不会做滑动窗口啦~
写在前面:全部题都源于力扣 讲解题目一:最小覆盖子串题目二:字符串排列题目三:找所有字母异位词题目四:无重复字符的最长子串题目五:滑动窗口的最大值 讲解 滑动窗口算法技巧主要用来解决子数组问题&#…...
![](https://www.ngui.cc/images/no-images.jpg)
从地铁客流讲开来:客流统计与清分释义
一、常见的客流统计 1. 进站客流 定义:指在某个时间段内,乘客进入地铁站的数量。示例:如果某天早上8点到9点之间有5000人次进入地铁站,则这段时间内的进站客流为5000人次。 2. 出站客流 定义:指在某个时间段内&…...
![](https://i-blog.csdnimg.cn/direct/e90822a4b69f457882565c003117e358.jpeg)
《Excelize权威指南》新书发布
在数据洪流涌动的数字化时代,数据处理与分析已跃升为解锁无限洞察力的金钥匙,赋能商业智慧、重塑医疗健康版图、驱动教育科研创新。然而,当数据量级爆炸式增长,传统工具如 Excel 虽被誉为数据处理领域的常青树,其手动操…...
![](https://i-blog.csdnimg.cn/direct/3c98679222ef466886298d0fbe21d8e1.png)
Go语言加Vue3零基础入门全栈班11 Go语言+gorm用户管理系统实战 2024年08月03日 课程笔记
概述 如果您没有Golang的基础,应该学习如下前置课程。 Golang零基础入门Golang面向对象编程Go Web 基础Go语言开发REST API接口_20240728Go语言操作MySQL开发用户管理系统API教程_20240729Redis零基础快速入门_20231227GoRedis开发用户管理系统API实战_20240730Mo…...
![](https://img-blog.csdnimg.cn/img_convert/03a8e45fba043ae5d784fcdac512454b.png)
【设计模式】代理模式详解
1.简介 代理模式是常用的Java设计模式,该模式的特点是代理类与委托类共享相同的接口。代理类主要负责预处理消息、过滤消息、将消息转发给委托类,并在事后处理消息等。代理类与委托类之间通常存在关联关系,一个代理类对象与一个委托类对象关…...
![](https://www.ngui.cc/images/no-images.jpg)
Python变量和简单的数据类型
1、变量 massageHello python world! print(massage) massageHello world print(massage) 运行这个代码发现,同一个变量出现两个不同的结果 Hello python world! Hello world 在程序中,可随时修改变量的值&…...
![](https://www.ngui.cc/images/no-images.jpg)
切比雪夫距离
切比雪夫距离(Chebyshev Distance),又称棋盘距离或最大值距离,是一种用于测量两个点之间距离的度量方法。在二维平面上,切比雪夫距离定义为两个点之间的最大坐标差值。其公式如下: DChebyshevmax(∣x2−…...
![](https://www.ngui.cc/images/no-images.jpg)
计算机基础(Windows 10+Office 2016)教程 —— 第4章 计算机网络与Internet(下)
第4章 计算机网络与Internet 4.4 局域网4.4.1 局域网概述4.4.2 以太网4.4.3 令牌环网4.4.4 无线局域网 4.5 Internet4.5.1 Internet 概述4.5.2 Internet 的基本概念4.5.3 Internet 的接入4.5.4 万维网 4.6 Internet的应用4.6.1 电子邮件4.6.2 文件传输4.6.3 搜索引擎 4.4 局域网…...
![](https://www.ngui.cc/images/no-images.jpg)
机器学习用Python还是R?哪个更好一些?
选择使用Python还是R来进行机器学习取决于多个因素,包括个人偏好、项目需求以及可用的资源。这里我可以简要比较一下它们的优缺点: Python的优势: 通用性和灵活性: Python是一种通用编程语言,可以用于多种用途&#…...
![](https://i-blog.csdnimg.cn/direct/ba3f685e1ddc4946b5fad5cc18df471f.png)
4个自定义倒计时
<!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><title>4个自定义倒计时</title><style>* {margin: 0;padding: 0;box-sizing: border-box;user-select: none;body {background: #0b1b2c;}}hea…...
![](https://www.ngui.cc/images/no-images.jpg)
linux系统编程中Shell脚本配置,及linux脚本中的man test
Shell脚本配置是指在脚本中设置各种参数、选项和环境,以确保脚本能够根据预期的需求和环境执行。配置可以包括变量设置、环境变量、命令选项和错误处理等。 1. 脚本开头的配置 Shebang 第一行通常是shebang,它告诉系统使用哪个解释器来执行脚本。例如…...
![](https://img-blog.csdnimg.cn/img_convert/833a91f65be4f84c8747aca173bf60c5.png)
Win7虚拟机分享(已安装VMware Tools)
前言 之前写过VMware安装Win7并安装VMware tools的博客,但操作仍显繁琐。后来发现可以直接分享已经配置好的虚拟机,所有软件都是安装好的,解压即用。 一. VMware Win7虚拟机配置 已完成的配置和安装的软件 专业版Win7系统(已永久激活)VMware…...
![](https://images.cnblogs.com/OutliningIndicators/ExpandedBlockStart.gif)
wordpress 这样去掉文章标题和正文之间的作者_日期等链接/中国疫情最新数据
一、这篇文章主要是要实现:图片新闻的添加,无刷新图片的上传,以及添加新闻静态页的生成。 无刷新图片的上传用到的组件:jquery.uploadify.js、uploadify.swf、uploadify.css。文本编辑器:ckeditor、ckfinder。前台图片…...
![](https://img-blog.csdnimg.cn/img_convert/e34cacbf6ba54a9e2193c0000e9a2538.png)
wordpress 自定义鼠标/链接是什么意思
创建2张表 一张t_shuiguo 水果表 一张t_supermarket 超市表现在我要查一个超市的各区水果价格的汇总如下: 表A那么首先水果表 是可以动态添加的 所有A表中的列 是动态的 先不考虑先看下静态的 如果就是这么4个水果那么SQL可以这么写 (参考了网上一些列子)-- 静态sqlselect ifnu…...
![](/images/no-images.jpg)
郴州网站/网站百度seo关键词优化
ActionContext context ActionContext.getContext(); MapSession session ActionContext.getSession(); ServletActionRequest request ServletActionContext().getRequest(); ServletActionResponse response ServletActionContext().getResponse();...
![](https://img-blog.csdnimg.cn/img_convert/06c44828c5df884bee395581218811af.png)
wordpress建站服务/站内优化
相信大家都知道win10系统,那么大家知道win10系统下u盘被写保护怎么解除吗?写保护功能可以保护U盘不被恶意破坏,当我们需要格式化的时候写保护就成了一个阻碍,所以我们有时候需要关闭写保护,下面我们就一起来看看win10解…...
![](/images/no-images.jpg)
php做网站架构图/国外服务器免费ip地址
Description 青子的生日快到了,快斗计划着带青子去游乐场玩。游乐场有好多游戏项目,每个游戏项目都有自己的开始和结束时间。同一时间只能玩一个游戏,前一个游戏结束后可以马上开始下一个游戏。为了让青子过一个愉快的生日,快斗决…...
![](/images/no-images.jpg)
武汉专业做网站的公司有哪些/网站制作的流程
1. 背景 介绍了如何利用Kafka Streams找出并过滤掉实时流中那些重复的消息。本篇将介绍如何对消息中特定数据进行求和汇总。 2. 功能演示说明 假设我们要执行汇总求和的事件格式如下: {"title":"Die Hard","sale_ts":"2019-…...