当前位置：首页 > news >正文

爬取百度图片，想爬谁就爬谁

news 2026/2/8 18:02:56

前言

既然是做爬虫，那么肯定就会有一些小心思，比如去获取一些自己喜欢的资料等。

去百度图片去抓取图片吧

打开百度图片网站，点击搜索xxx，打开后，滚动滚动条，发现滚动条越来越小，说明图片加载是动态的，应该是通过ajax获取数据的，网站地址栏根本不是真正的图片地址。按F12打开开发者模式，我们边滚动边分析，发现下面的url才是真正获取图片地址的。

https://image.baidu.com/search/acjson?tn=resultjson_com&logid=xxxxxxx&ipn=rj&ct=201326592&is=&fp=result&fr=&word=你搜索的内容&queryWord=你搜索的内容&cl=&lm=&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&hd=&latest=&copyright=&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=&expermode=&nojc=&isAsync=&pn=120&rn=30&gsm=78&1721292699879=

盲目分析分析，其中pn=120，这有可能就是page number，这里的pn rn 很有可能就是page_size row_num，然后再去试着修改pn值为0，30，60去试试，发现果然数据不同，得。实锤了…
下面是pn=30的数据

在这里插入图片描述
（太严格了，只能发图片了，不知道能不能通过）
通过分析可知，data中就是真正的图片数据，好了我们可以拿到url，拿到各种数据了。

用python去爬取数据

这要分几个步骤：

我们是循环爬取数据的
爬取数据后还得保存到文件夹中
所以要引入os 以及 requests库

上代码

创建文件夹

# 需要用来创建文件夹
import os
# 在当前目录创建文件夹，咱就简单的弄吧，别搞复杂的
def mkdir_dir_at_curr_path(dir_name):try:os.mkdir(dir_name)print('文件夹：',dir_name,'创建成功')except FileExistsError:print('文件夹：',dir_name,'已经存在')def get_headers():return {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36","Access-Control-Allow-Credentials": "true","Access-Control-Allow-Origin": "https://m.baidu.com, https://www.baidu.com, http://m.baidu.com,http://www.baidu.com","Connection":"keep-alive","Content-Encoding": "br","Content-Type":"application/json"}

定义url以及headers

因为是循环爬取，所以url肯定是动态的，也就是改一下pn的值，查询的人物的名称，保证通用性。而且发现单纯的请求返回的数据不正常，这个时候我们就得加上headers了，这个没办法，百度肯定会有一些防御性的措施来防止爬虫捣乱。

# 需要发送请求
import requestsdef get_headers():return {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36","Access-Control-Allow-Credentials": "true","Access-Control-Allow-Origin": "https://m.baidu.com, https://www.baidu.com, http://m.baidu.com,http://www.baidu.com","Connection":"keep-alive","Content-Encoding": "br","Content-Type":"application/json"}
def get_url(search_name,page_size):url='https://image.baidu.com/search/acjson?tn=resultjson_com&logid=8332766429333445053&ipn=rj&ct=201326592&is=&fp=result&fr=&word='+search_name+'&queryWord='+search_name+'&cl=2&lm=&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=&hd=&latest=&copyright=&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&expermode=&nojc=&isAsync=&pn='+str(page_size)+'&rn=30&gsm=3c&1721294093333='return url

下载的主体逻辑

# 定义函数去下载图片
def down_load_pics(search_name):# 创建文件夹mkdir_dir_at_curr_path(search_name)#是否继续循环去下载flag=True# 确定是第几次下载request_count=0while(flag):print('第',request_count+1,'次下载中')# 获取urldownload_num=request_count*30url= get_url(search_name,download_num)# 获取请求头headers=get_headers()#发送请求获得响应数据resp=requests.get(url,headers=headers)# 确定是json数据了jsonData=resp.json()if 'data' not in jsonData or jsonData['data']==[] or jsonData['data']==[{}]:print('已经全部下载完成')# 下载完了就要跳出循环flag=Falsereturn# 有数据就去下载for item in jsonData['data']:if 'thumbURL' in item and 'fromPageTitleEnc' in item and search_name in item['fromPageTitleEnc']:# 图片的真正地址sub_url=item['thumbURL']if sub_url.startswith('http'):response=requests.get(sub_url)# 文件夹中文件数量，用来计算下载图片名称file_size= len(os.listdir(search_name))# 下载后图片名称下标pic_index=file_size+1#图片名称curr_file_name=search_name+'_'+str(pic_index)# 将下载好的图片数据保存到文件夹中with open(str(search_name+'/'+curr_file_name)+'.jpg','wb') as f:f.write(response.content)print('第',pic_index,'张图片下载完成')# 准备下一次循环request_count = request_count + 1

最后可以去测试一下了

测试

if __name__ == '__main__':down_load_pics('你搜索的内容')

真的是perfect！完全达到预期！在这里插入图片描述
现在是不是感觉自己很帅啊哈哈

下面附上完整的代码，朋友们记得点个赞哦~~

# 需要发送请求
import requests
# 需要用来创建文件夹
import os# 定义函数去下载图片
def down_load_pics(search_name):# 创建文件夹mkdir_dir_at_curr_path(search_name)#是否继续循环去下载flag=True# 确定是第几次下载request_count=0while(flag):print('第',request_count+1,'次下载中')# 获取urldownload_num=request_count*30url= get_url(search_name,download_num)# 获取请求头headers=get_headers()#发送请求获得响应数据resp=requests.get(url,headers=headers)# 确定是json数据了jsonData=resp.json()if 'data' not in jsonData or jsonData['data']==[] or jsonData['data']==[{}]:print('已经全部下载完成')# 下载完了就要跳出循环flag=Falsereturn# 有数据就去下载for item in jsonData['data']:if 'thumbURL' in item and 'fromPageTitleEnc' in item and search_name in item['fromPageTitleEnc']:# 图片的真正地址sub_url=item['thumbURL']if sub_url.startswith('http'):response=requests.get(sub_url)# 文件夹中文件数量，用来计算下载图片名称file_size= len(os.listdir(search_name))# 下载后图片名称下标pic_index=file_size+1#图片名称curr_file_name=search_name+'_'+str(pic_index)# 将下载好的图片数据保存到文件夹中with open(str(search_name+'/'+curr_file_name)+'.jpg','wb') as f:f.write(response.content)print('第',pic_index,'张图片下载完成')# 准备下一次循环request_count = request_count + 1
def get_headers():return {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36","Access-Control-Allow-Credentials": "true","Access-Control-Allow-Origin": "https://m.baidu.com, https://www.baidu.com, http://m.baidu.com,http://www.baidu.com","Connection":"keep-alive","Content-Encoding": "br","Content-Type":"application/json"}
def get_url(search_name,page_size):url='https://image.baidu.com/search/acjson?tn=resultjson_com&logid=8332766429333445053&ipn=rj&ct=201326592&is=&fp=result&fr=&word='+search_name+'&queryWord='+search_name+'&cl=2&lm=&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=&hd=&latest=&copyright=&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&expermode=&nojc=&isAsync=&pn='+str(page_size)+'&rn=30&gsm=3c&1721294093333='return url
# 在当前目录创建文件夹，咱就简单的弄吧，别搞复杂的
def mkdir_dir_at_curr_path(dir_name):try:os.mkdir(dir_name)print('文件夹：',dir_name,'创建成功')except FileExistsError:print('文件夹：',dir_name,'已经存在')if __name__ == '__main__':down_load_pics('xxx任何你喜欢的内容')

爬取百度图片，想爬谁就爬谁

前言

去百度图片去抓取图片吧

用python去爬取数据

创建文件夹

定义url以及headers

下载的主体逻辑

测试

相关文章：

爬取百度图片，想爬谁就爬谁

HTTP 缓存

设计模式实战：图形编辑器的设计与实现

.NET 情报 | 分析某云系统添加管理员漏洞

vue检测页面手指滑动距离，执行回调函数，使用混入的语法，多个组件都可以使用

opencv 优势

1-如何挑选Android编译服务器

【JS逆向课件：第十六课：Scrapy基础2】

使用 PowerShell 自动化图像识别与鼠标操作

组队学习——支持向量机

【数据中心】数据中心的IP封堵防护：构建网络防火墙的基石

LangChain的使用详解

Modbus转BACnet/IP网关快速对接Modbus协议设备与BA系统

万字长文之分库分表里无分库分表键如何查询【后端面试题 | 中间件 | 数据库 | MySQL | 分库分表 | 其他查询】

如何查看jvm资源占用情况

科研绘图系列：R语言TCGA分组饼图（multiple pie charts）

ReadAgent，一款具有要点记忆的人工智能阅读代理

构建智能：利用Gradle项目属性控制构建行为

如何通过smtp设置使ONLYOFFICE协作空间服务器可以发送注册邀请邮件

SQL labs靶场-SQL注入入门

椭圆曲线密码学(ECC)

React hook之useRef

黑马Mybatis

HTML 列表、表格、表单

在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module

【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分

Redis的发布订阅模式与专业的 MQ（如 Kafka, RabbitMQ）相比，优缺点是什么？适用于哪些场景？

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材)

【Nginx】使用 Nginx+Lua 实现基于 IP 的访问频率限制

安卓基础（Java 和 Gradle 版本）