当前位置: 首页 > news >正文

在 Selenium 中更改 User-Agent | 步骤与最佳实践

在 Selenium 中更改 User Agent 是许多网页抓取任务中的关键步骤。它有助于将自动化脚本伪装成常规浏览器,从而避免被网站检测到。本指南将带您了解如何在 Selenium 中更改 Google Chrome 的 User Agent,并提供最佳实践以确保您的网页抓取任务顺利进行。

目录

  1. 了解 Selenium User-Agent
  2. Selenium 中的默认 User-Agent
  3. 为什么要更改 User-Agent?
    a. 在 Google Chrome Selenium 中更改 User-Agent
    b. 在 Firefox Selenium 中更改 User-Agent
  4. 更顺畅访问网站的最佳实践
  5. 结论

了解 Selenium User-Agent

User-Agent 字符串是 HTTP 头信息的重要组成部分,在浏览器和 Web 服务器之间的通信中起着重要作用。它提供有关发送请求的浏览器、操作系统和设备的具体信息。以下是一个典型的 User-Agent 字符串示例:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36

这个字符串表明请求来自运行在 Windows 操作系统上的 Chrome 浏览器。

然而,当使用 Selenium 进行 Web 自动化时,默认的 User-Agent 字符串可以揭示请求是由自动化脚本发出的。配备反机器人措施的网站可以轻松检测到这一点并阻止访问,以防止自动化抓取或测试。这使得在 Selenium 中自定义 User-Agent 字符串变得至关重要,以使请求看起来像是来自真实的浏览器,从而降低被检测和阻止的风险。

为此,您可以在 Selenium 中修改 User-Agent 字符串,使其与标准浏览器的字符串匹配,从而提高自动化脚本的隐蔽性和有效性。

Selenium 中的默认 User-Agent

是的,Selenium 在发出 HTTP 请求时使用 User-Agent 字符串。默认情况下,Selenium 将使用与其自动化的浏览器相关联的 User-Agent 字符串。这意味着当您使用 Chrome WebDriver 运行 Selenium 脚本时,User-Agent 字符串将反映 Chrome 的默认 User-Agent。

然而,这个默认的 User-Agent 有时会向 Web 服务器发出信号,表明请求来自自动化脚本,使基于 Selenium 的操作容易被反机器人系统检测和阻止。自定义 User-Agent 字符串可以帮助减轻这个问题,使您的脚本更无缝地融入常规浏览器流量。

是否在反复失败中挣扎,无法完全解决恼人的验证码问题?

发现无缝自动解决验证码的 Capsolver AI 驱动自动网页解锁技术!

领取您的 优惠码 以获得顶级验证码解决方案;CapSolver: WEBS。兑换后,每次充值将额外获得 5% 奖励,无限次。

为什么要更改 User-Agent?

如前所述,User-Agent 字段包含有关发出请求的浏览器类型、版本、引擎和操作系统的信息。如果目标网站在短时间内收到来自同一 User-Agent 的多个请求,它有理由怀疑这些请求来自同一个用户或单个机器人。然后,网站管理员可以暂时阻止来自该特定 User-Agent 的请求,以防止进一步访问。特别是在需要抓取大量数据的情况下,能够更改 User-Agent 以模拟不同用户是至关重要的。这可以显著提高您的抓取成功率。

在 Google Chrome Selenium 中更改 User-Agent

如果您尚未在本地安装 selenium 库,可以使用以下命令进行安装:

pip install selenium

导入库:

from selenium import webdriver

然后初始化一个 Chrome Options 对象并设置自定义 User-Agent:

custom_user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument(f'--user-agent={custom_user_agent}')

接下来,创建一个新的 ChromeDriver 实例并向目标网站发出请求:

driver = webdriver.Chrome(options=chrome_options)
driver.get("https://httpbin.org/user-agent")

HTTPBin 是一个 Web 请求调试服务,它显示请求的 User-Agent。如果代码正确,您应该会看到我们自定义的 User-Agent,如下图所示:

在上述代码中,custom_user_agent 值是静态的。如果您希望每次打开浏览器时使用不同的 User-Agent,可以手动收集各种 User-Agent 字符串并将它们编译成一个列表。然后,每次随机选择列表中的一个值。或者,您可以使用 fake-useragent 库,该库提供了一种简单的方法来动态生成随机 User-Agent 字符串。使用以下命令安装该库:

pip install fake-useragent

使用 fake-useragent 非常简单:

from fake_useragent import UserAgent
ua = UserAgent()# 获取一个随机的浏览器 User-Agent 字符串
print(ua.random)# 或者获取特定浏览器的 User-Agent 字符串
print(ua.chrome)
# Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36
print(ua.firefox)
# Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0
print(ua.safari)
# Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.2 Safari/605.1.15

结合 Selenium,完整代码如下:

import time
from selenium import webdriver
from fake_useragent import UserAgentua = UserAgent()
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument(f'--user-agent={ua.random}')driver = webdriver.Chrome(options=chrome_options)
driver.get("https://httpbin.org/user-agent")time.sleep(10)
driver.quit()

这种设置允许我们在 Selenium 驱动的 Google Chrome 中随机化使用的 User-Agent。

在 Firefox Selenium 中更改 User-Agent

Selenium 不仅可以驱动 Google Chrome,还可以驱动 Firefox。唯一的区别是将 webdriver.ChromeOptions() 切换为 webdriver.FirefoxOptions()。以下是完整代码:

import time
from selenium import webdriver
from fake_useragent import UserAgentua = UserAgent()
firefox_options = webdriver.FirefoxOptions()
firefox_options.add_argument(f'--user-agent={ua.random}')driver = webdriver.Firefox(options=firefox_options)
driver.get("https://httpbin.org/user-agent")time.sleep(10)
driver.quit()

您可以看到网页上成功更改了 User-Agent:

更顺畅访问网站的最佳实践

更改 User-Agent 的目的是防止目标网站阻止我们的访问。基于 User-Agent 的阻止只是许多反抓取和反机器人措施中的一种。更常见的是,网站会设置诸如 CAPTCHA(如 recaptcha、hcaptcha、funcaptcha、datadome 等)等挑战来过滤出机器人。这些挑战通常非常复杂,极大地阻碍了网站的访问。

使用 Capsolver 服务可以帮助您解决 CAPTCHA 挑战。如果您在向目标网站发出 API 请求时遇到 CAPTCHA 挑战,可以使用 Capsolver 的 任务 API,它会解决各种挑战并返回正确的令牌给您。

如果您使用的是 Selenium 等自动化工具,可以将 Capsolver 的扩展无缝集成到 Chrome 和 Firefox 等浏览器中。这种集成增强了您的能力,提供了更顺畅的访问体验。

结论

通过本文,您可以很好地掌握在 Selenium 中自定义 User-Agent 的方法。这不仅可以提高您的网页抓取工作的隐蔽性和可靠性,还能确保与不同网站的交互更加顺畅。无论是通过 CAPTCHA 挑战还是模拟用户行为,战略性地调整 User-Agent 都可能成为游戏规则的改变者。记住,使用像 CapSolver 这样的工具,克服网页数据访问的障碍不仅是可行的,而且是高效的。在当今动态的数字环境中,采用这些实践往往可以提高您的自动化项目的效率,并最大化网页抓取的收益!

CapsolverCN官 方代理交流扣 群:497493756

相关文章:

在 Selenium 中更改 User-Agent | 步骤与最佳实践

在 Selenium 中更改 User Agent 是许多网页抓取任务中的关键步骤。它有助于将自动化脚本伪装成常规浏览器,从而避免被网站检测到。本指南将带您了解如何在 Selenium 中更改 Google Chrome 的 User Agent,并提供最佳实践以确保您的网页抓取任务顺利进行。…...

2024酒店IPTV云桌面系统建设方案

Hello大家好,我是点量小芹,这一年多的时间一直在分享实时云渲染像素流相关的内容,今天和大家聊聊酒店IPTV云桌面电视系统解决方案,或者有的朋友也会称之为IPTV服务器。熟悉小芹的朋友知道,IPTV软件系统是我们一直在推的…...

java Thrift TThreadPoolServer 多个processor 的实现

当我们使用Thrift 通信的时候,服务端有时候需要注册多个类,去实现通信,这时候我们就不能再使用单一Processor的方式,就要使用多个Processor,那么如何去实现呢? 多个Process 服务端 public static void m…...

失眠焦虑的解脱之道:找回内心的平静

🍃 在这个快节奏的时代,失眠与焦虑似乎成了许多人的隐形敌人。每当夜幕降临,它们便悄悄潜入心底,扰乱我们的思绪,让宁静的夜晚变得无比漫长。然而,生活总有办法让我们找回内心的平静,只需稍作调…...

OLED柔性屏的显示效果如何

OLED柔性屏的显示效果非常出色,具有多方面的优势。以下是关于OLED柔性屏显示效果的详细分析: 色彩表现:OLED柔性屏的每个像素都可以独立发光,因此色彩准确性极高。黑色呈现得非常深邃,而亮部则展现出鲜明而生动的细节。…...

百货商城优选 伊利牛奶推出全国首款减甲烷环保学生奶

近日,伊利集团受邀参加在全国首个“国际首脑峰会零碳场馆”召开的“降碳增产科技助力奶业绿色高质量发展”首款低碳饲料创新大会。会上,伊利宣布将推出全国首款减甲烷环保学生牛奶——伊利QQ星学生纯牛奶,进一步将可持续发展落到实处&#xf…...

Fluid 1.0 版发布,打通云原生高效数据使用的“最后一公里”

作者:顾荣 前言 得益于云原生技术在资源成本集约、部署运维便捷、算力弹性灵活方面的优势,越来越多企业和开发者将数据密集型应用,特别是 AI 和大数据领域应用,运行于云原生环境中。然而,云原生计算与存储分离架构虽…...

软件测试--第十一章 设计和维护测试用例

1.单选题 (2分) 下面有关测试设计的叙述,说法不正确的是( )。 A 测试用例的设计是一项技术性强.智力密集型的活动 B 在开展测试用例设计前,必须将测试需求进行详细展开 C 在一般的测试组织内,测试用例的评审可能不是正式的评审会 D 在测试用例设计时,只设计覆盖正常流程和操…...

前端只允许一次函数调用

如果你正在进行前端开发,并且只想允许一次函数调用,你可以使用JavaScript的闭包结构创建一个只能被调用一次的函数。这样的函数有时被称为单次调用函数(“one-time call” functions)或一次性函数(“once” functions&…...

visdom使用时所遇的问题及解决方法

最近在用visdom进行可视化的过程中,虽然可有效的避免主机拒绝访问(该问题的解决方法,请参考深度学习可视化工具visdom使用-CSDN博客)即在终端输入python -m visom.server 1.训练过程中visdom出现ValueError: too many file descr…...

密封类(sealed class)

在 Kotlin 中,密封类(sealed class)是一种受限的类层次结构,允许您定义一个封闭的类层次结构,其中类的所有可能子类都已知并且位于同一文件中。密封类的主要作用是提供类型安全的受限层次结构,使得 when 表…...

私域引流宝PHP源码 以及搭建教程

私域引流宝PHP源码 以及搭建教程...

磁盘管理 以及磁盘的分区 详细版

磁盘管理 track:磁道,就是磁盘上同心圆,从外向里,依次1号、2号磁道sector:扇区,将磁盘分成一个一个扇形区域,每个扇区大小是512字节,从外向里,依次是1号扇区、2号扇区cylinder&…...

加码多肤色影像技术 这是传音找到的“出海利器“?

全球化时代,市场竞争愈演愈烈,产品差异化已然成为了企业脱颖而出的关键。在黄、白肤色长期占据人像摄影主赛道的背景下,传音就凭借独一无二的多肤色影像技术走出非洲,走向了更广阔的新兴市场。 聚焦深肤色人群拍照痛点&#xff0c…...

C++方法封装成dll及C#调用示例

1,编译生成dll时可能出现错误,解决办法:pch.h文件头部,添加声明 #define _CRT_SECURE_NO_WARNINGS 2, c头文件声明 extern "C" __declspec(dllexport) char* getvalue(const char * param1, const char * param2); 3, c方法实现…...

定时清理Linux服务器缓存shell脚本

服务器内存占用过高,如何定时清理一下服务器内存呢?写一个清理缓存脚本,加入到定时任务中。 一、编写脚本 clear_cache.sh 脚本,放到home目录下。 #!/bin/bash# 清除页面缓存、目录项和 inode 缓存 sudo sync echo 3 | sudo tee /proc/sys/vm/drop_caches# 记录执行时间到日…...

Guava常用方法

目录 一、数学和数值操作 二、并发库 三、缓存 四、集合 五、I/O 与文件操作 六、网络 七、时间处理 八、事件总线 九、反射 十、范围和集合操作 十一、随机数和测试 十二、注解处理 十三、比较器和排序 十四、哈希和散列 Guava 是 Google 开源的一个 Java 工具库&#xff…...

干货分享:宏集物联网HMI通过S7 MPI协议采集西门子400PLC数据

前言 为了实现和西门子PLC的数据交互,宏集物联网HMI集成了S7 PPI、S7 MPI、S7 Optimized、S7 ETH等多个驱动来适配西门子200、300、400、1200、1500、LOGO等系列PLC。 本文主要介绍宏集HMI通过S7 MPI协议采集西门子400PLC数据的操作步骤,其他协议的操作…...

【Web API DOM11】节点操作

目录 一:DOM节点 1 什么是DOM节点 2 DOM节点分类 二:节点查找(元素节点) 1 节点关系 父节点 子节点 兄弟节点 三:增加节点 1 创建节点 2 追加节点 2 案例:渲染数据 案例中核心代码块 样式 四…...

Unity 设置窗口置顶超级详解版

目录 前言 一、user32.dll 1.什么是user32.dll 2.如何使用user32.dll 二、句柄Handle 1.句柄 2.句柄的功能 3.拿句柄的方法 三、窗口置顶 1.窗口置顶的方法 2.参数说明 3.使用方法 四、作者的碎碎念 前言 up依旧挑战全网讲解最详细版本~~ 本篇文章讲解的是unity…...

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …...

dedecms 织梦自定义表单留言增加ajax验证码功能

增加ajax功能模块&#xff0c;用户不点击提交按钮&#xff0c;只要输入框失去焦点&#xff0c;就会提前提示验证码是否正确。 一&#xff0c;模板上增加验证码 <input name"vdcode"id"vdcode" placeholder"请输入验证码" type"text&quo…...

selenium学习实战【Python爬虫】

selenium学习实战【Python爬虫】 文章目录 selenium学习实战【Python爬虫】一、声明二、学习目标三、安装依赖3.1 安装selenium库3.2 安装浏览器驱动3.2.1 查看Edge版本3.2.2 驱动安装 四、代码讲解4.1 配置浏览器4.2 加载更多4.3 寻找内容4.4 完整代码 五、报告文件爬取5.1 提…...

Angular微前端架构:Module Federation + ngx-build-plus (Webpack)

以下是一个完整的 Angular 微前端示例&#xff0c;其中使用的是 Module Federation 和 npx-build-plus 实现了主应用&#xff08;Shell&#xff09;与子应用&#xff08;Remote&#xff09;的集成。 &#x1f6e0;️ 项目结构 angular-mf/ ├── shell-app/ # 主应用&…...

React---day11

14.4 react-redux第三方库 提供connect、thunk之类的函数 以获取一个banner数据为例子 store&#xff1a; 我们在使用异步的时候理应是要使用中间件的&#xff0c;但是configureStore 已经自动集成了 redux-thunk&#xff0c;注意action里面要返回函数 import { configureS…...

纯 Java 项目(非 SpringBoot)集成 Mybatis-Plus 和 Mybatis-Plus-Join

纯 Java 项目&#xff08;非 SpringBoot&#xff09;集成 Mybatis-Plus 和 Mybatis-Plus-Join 1、依赖1.1、依赖版本1.2、pom.xml 2、代码2.1、SqlSession 构造器2.2、MybatisPlus代码生成器2.3、获取 config.yml 配置2.3.1、config.yml2.3.2、项目配置类 2.4、ftl 模板2.4.1、…...

RabbitMQ入门4.1.0版本(基于java、SpringBoot操作)

RabbitMQ 一、RabbitMQ概述 RabbitMQ RabbitMQ最初由LShift和CohesiveFT于2007年开发&#xff0c;后来由Pivotal Software Inc.&#xff08;现为VMware子公司&#xff09;接管。RabbitMQ 是一个开源的消息代理和队列服务器&#xff0c;用 Erlang 语言编写。广泛应用于各种分布…...

【MATLAB代码】基于最大相关熵准则(MCC)的三维鲁棒卡尔曼滤波算法(MCC-KF),附源代码|订阅专栏后可直接查看

文章所述的代码实现了基于最大相关熵准则(MCC)的三维鲁棒卡尔曼滤波算法(MCC-KF),针对传感器观测数据中存在的脉冲型异常噪声问题,通过非线性加权机制提升滤波器的抗干扰能力。代码通过对比传统KF与MCC-KF在含异常值场景下的表现,验证了后者在状态估计鲁棒性方面的显著优…...

苹果AI眼镜:从“工具”到“社交姿态”的范式革命——重新定义AI交互入口的未来机会

在2025年的AI硬件浪潮中,苹果AI眼镜(Apple Glasses)正在引发一场关于“人机交互形态”的深度思考。它并非简单地替代AirPods或Apple Watch,而是开辟了一个全新的、日常可接受的AI入口。其核心价值不在于功能的堆叠,而在于如何通过形态设计打破社交壁垒,成为用户“全天佩戴…...

LOOI机器人的技术实现解析:从手势识别到边缘检测

LOOI机器人作为一款创新的AI硬件产品&#xff0c;通过将智能手机转变为具有情感交互能力的桌面机器人&#xff0c;展示了前沿AI技术与传统硬件设计的完美结合。作为AI与玩具领域的专家&#xff0c;我将全面解析LOOI的技术实现架构&#xff0c;特别是其手势识别、物体识别和环境…...