爬虫案例:建设库JS逆向
爬虫流程
1. 确定目标网址和所需内容
https://www.jiansheku.com/search/enterprise/
只是个学习案例,所以目标就有我自己来选择,企业名称,法定代表人,注册资本,成立日期
2. 对目标网站,进行分析
-
动态内容分析:
JS和Ajax请求:确定页面是否使用JavaScript动态加载内容,如果是,需要分析Ajax请求以获取数据的API。
进行页面切换,抓去Ajax,发现page里面的response携带这我们所需要的数据找到动态变化值,一般在
headers
,或者payload
中,动态变化值,可能就是影响批量爬虫的关键
例中的payload
是明文数据,headers
中sign
,timestamp
是动态变化值
3 .找到加密的入口
靠经验,运气,猜测,分析代码,观察数据,调试代码,逆向分析,等等。
使用关键字搜索,断点,调用堆栈等方法。
这里我使用关键字搜索
使用正则表达式搜索缩小搜索范围,勾选“Use Regular Expression
”或.*
并输入正则表达式,如\bSign\b
—\b确定搜索边界
像Math.sign这种是js的数学库文件,可以直接排除,就10几个,慢慢排查,使用断点调试
这里就是目标,注意这里使用了js的逗号表达式,想要查看结果悬浮,或者在控制台中查看,注意你要在断点的作用域内,函数是有生命周期的
4. 扣js代码
复制js代码,模拟浏览器加密过程
这里我发现一个好用的小技巧,使用单步调试,从断点开始出发查看经过的函数基本都是我们所需的js代码,途中会跳转到其他的js文件(webpack)然后回来就可一看见MD5加密的算法了
5. 写代码
- 请求模拟
- 获取js逆向值
- py调用js
- 数据清洗
- 数据存储
- 处理反爬机制(ip封禁)
注意事项
- 下载packages的时候过慢,pip和node我都会给出镜像源
- 我使用的是Linux:
pip install PyExecJS2
,Windows:pip install PyExecJS
,不行就两个都试一遍 - google在浏览器开发者工具中不让粘贴,可在控制台输入
allow pasting
- 本来打算以csv文件保存,但是爬取页数一多,就打不开csv文件,所以就保存为txt
- 最好不要使用异步模块,这个爬取的速度不会太慢,爬取的太快服务区可能不会响应
- 不要大量爬去,该网站会封IP(使用代理池就可以了)
packages
- pip
# 模拟浏览器发送请求
pip install requests -i https://mirrors.aliyun.com/pypi/simple/# 在py中调用js
pip install PyExecJS2 -i https://mirrors.aliyun.com/pypi/simple/# 方便实时预览进度
pip install requests -i https://mirrors.aliyun.com/pypi/simple/
- npm
# 使用淘宝源
npm config set registry https://registry.npm.taobao.org# 我遇到了证书过期(可能是我设置的是外国时区,使用的是国内的源),设置 npm 忽略 SSL 证书错误
npm config set strict-ssl falsenpm install crypto-js
python code
import requests
import time
import execjs
import json
from tqdm import tqdmdef fetch_data(page, timer):json_data = {'eid': '','achievementQueryType': 'and','achievementQueryDto': [],'personnelQueryDto': {'queryType': 'and',},'aptitudeQueryDto': {'queryType': 'and','nameStr': '','aptitudeQueryType': 'and','businessScopeQueryType': 'or','filePlaceType': '1','aptitudeDtoList': [{'codeStr': '','queryType': 'and','aptitudeType': 'qualification',},],'aptitudeSource': 'new',},'page': {'page': page,'limit': 20,'field': '','order': '',},}get_sign = execjs.compile(open('jiansheku.js').read()).call('get_sign', json_data, timer)cookies = {'Hm_lvt_03b8714a30a2e110b8a13db120eb6774': '1718020163','Hm_lpvt_03b8714a30a2e110b8a13db120eb6774': '1718020163','HWWAFSESTIME': '1718020163509','HWWAFSESID': '228fb8efd82b43680e',}headers = {'accept': 'application/json, text/plain, */*','accept-language': 'en-US,en;q=0.9','content-type': 'application/json;charset=UTF-8','devicetype': 'PC','origin': 'https://www.jiansheku.com','page': 'search-enterprise','priority': 'u=1, i','referer': 'https://www.jiansheku.com/','sec-ch-ua': '"Google Chrome";v="125", "Chromium";v="125", "Not.A/Brand";v="24"','sec-ch-ua-mobile': '?0','sec-ch-ua-platform': '"Linux"','sec-fetch-dest': 'empty','sec-fetch-mode': 'cors','sec-fetch-site': 'same-site','sign': get_sign,'timestamp': str(timer),'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36',}try:response = requests.post('https://capi.jiansheku.com/nationzj/enterprice/page', cookies=cookies, headers=headers, json=json_data)response.raise_for_status() # 检查请求是否成功print(f"Page {page} fetched successfully")print(response.text) # 打印响应内容以检查数据格式return response.json()except requests.RequestException as e:print(f"Request failed for page {page}: {e}")return Nonedef save_to_txt(all_records, filename='enterprise_data.txt'):with open(filename, 'w', encoding='utf-8') as file:headers = ['Name', 'Legal Person', 'Registered Capital', 'LiceValidity Date']file.write('\t'.join(headers) + '\n')for record in all_records:line = f"{record['name']}\t{record['legalPerson']}\t{record['registeredCapital']}\t{record['liceValidityDate']}\n"file.write(line)print(f"数据已保存到 {filename} 文件中")def main():timer = time.time() * 1000max_pages = 5 # 设置要遍历的最大页数all_records = []for page in tqdm(range(1, max_pages + 1)):data = fetch_data(page, timer)if data and 'data' in data and 'list' in data['data']:records = [{'name': item['name'],'legalPerson': item.get('legalPerson', ''),'registeredCapital': item.get('registeredCapital', ''),'liceValidityDate': item.get('liceValidityDate', '')} for item in data['data']['list']]all_records.extend(records)else:print(f"No data found for page {page}")if all_records:# 将记录保存到txt文件save_to_txt(all_records)else:print("No records to save.")if __name__ == "__main__":main()
js code
const Cryptojs = require("crypto-js")ku = function(e, t, time) {var n = t + e + time;// 这里的MD5是加密算法,加密后的字符串就是签名return n = Cryptojs.MD5(n).toString() // 经过单点调试,发现这里是加密算法构成的位置
}Lu = function e(t) {var n;if (Array.isArray(t)) {for (var r in n = new Array,t) {var o = t[r];for (var i in o)null == o[i] ? delete t[r][i] : Array.isArray(t[r][i]) && e(t[r][i])}return n = t,JSON.stringify(n).replace(/^(\s|")+|(\s|")+$/g, "")}return n = t && t.constructor === Object ? JSON.stringify(t) : t
}Tu = function(e) {var t = new Array, n = 0;for (var i in e)t[n] = i,n++;return t.sort()
}Ou = function(e) {var t = Tu(e), n = "";for (var i in t) {var r = Lu(e[t[i]]);null != r && "" != r.toString() && (n += t[i] + "=" + r + "&")}return n
}function get_sign(param, time) {
// param = {
// 'eid': '',
// 'achievementQueryType': 'and',
// 'achievementQueryDto': [],
// 'personnelQueryDto': {
// 'queryType': 'and',
// },
// 'aptitudeQueryDto': {
// 'queryType': 'and',
// 'nameStr': '',
// 'aptitudeQueryType': 'and',
// 'businessScopeQueryType': 'or',
// 'filePlaceType': '1',
// 'aptitudeDtoList': [
// {
// 'codeStr': '',
// 'queryType': 'and',
// 'aptitudeType': 'qualification',
// },
// ],
// 'aptitudeSource': 'new',
// },
// 'page': {
// 'page': 3,
// 'limit': 20,
// 'field': '',
// 'order': '',
// },
// };
// time = (new Date).getTime();t = Ou(param);return ku("ghaepVf6IhcHmgnk4NCTXLApxQkBcvh1", ku("mwMlWOdyM7OXbjzQPulT1ndRZIAjShDB", ku("ZuSj0gwgsKXP4fTEz55oAG2q2p1SVGKK", t, time), time), time);
}// console.log(get_sign());
相关文章:
爬虫案例:建设库JS逆向
爬虫流程 1. 确定目标网址和所需内容 https://www.jiansheku.com/search/enterprise/ 只是个学习案例,所以目标就有我自己来选择,企业名称,法定代表人,注册资本,成立日期 2. 对目标网站,进行分析 动态…...
基于springboot的酒店管理系统源码数据库
时代的发展带来了巨大的生活改变,很多事务从传统手工管理转变为自动管理。自动管理是利用科技的发展开发的新型管理系统,这类管理系统可以帮助人完成基本的繁琐的反复工作。酒店是出门的必需品,无论出差还是旅游都需要酒店的服务。由于在旺季…...
Web前端开发 - 5 - JavaScript基础
JavaScript 一、JavaScript基础1. JavaScript入门2. 语句3. 数据类型4. 函数5. 对象6. 数组 一、JavaScript基础 1. JavaScript入门 <script> </script> <script type"text/javascript" src"xxx.js"> </script>//单行注释 /* 多…...
程序员之路:塑造卓越职业素养的探索与实践
序章 在这个数字时代,程序员作为技术进步的推动者,不仅需要掌握扎实的技术技能,更需具备高尚的职业素养,以应对日益复杂的行业挑战。职业素养,犹如编程中的“算法”,虽无形却决定着个人发展的效率与质量。本…...
C# Winform 在低DPI创建窗体后,在高DPI运行时,窗体会自动拉伸,导致窗体显示不全
C# Winform 在低DPI创建窗体后,在高DPI运行时,窗体会自动拉伸,导致窗体显示不全, 比如在分辨率为100% 的电脑创建C#项目,当运动到分辨率为125%的电脑运行时,后者运行的窗体会自动拉伸,窗体显示…...
JWT攻击手册(非常详细)零基础入门到精通,收藏这一篇就够了
JSON Web Token(JWT)对于渗透测试人员而言可能是一种非常吸引人的攻击途径,因为它们不仅是让你获得无限访问权限的关键,而且还被视为隐藏了通往以下特权的途径:特权升级,信息泄露,SQLiÿ…...
5.所有权
标题 一、概念二、规则三、示例3.1 变量作用域3.2 所有权的移交(深拷贝与浅拷贝)3.3 函数与所有权3.4 返回值与作用域3.5 引用的使用 四、切片(&str) 一、概念 所有权是Rust的核心特性。所有程序在运行时都必须管理它们使用计算机内存的方式。Rust的…...
RabbitMQ-工作模式(Publish模式Routing模式)
文章目录 发布/订阅(Publish/Subscribe)交换机临时队列绑定总体代码示例 路由(Routing)绑定直连交换机多重绑定发送日志订阅总体代码示例 更多相关内容可查看 发布/订阅(Publish/Subscribe) 构建一个简单的…...
【机器学习算法】期望最大化(EM)算法概述
期望最大化(EM)算法是一种迭代算法,用于在有未观测变量的情况下,求解概率模型参数的最大似然估计或最大后验估计。以下是对EM算法的原理与应用进行详细地剖析: EM算法原理 E步 - 期望计算:根据当前估计的模…...
【深度学习】数竹签演示软件系统
往期文章列表: 【YOLO深度学习系列】图像分类、物体检测、实例分割、物体追踪、姿态估计、定向边框检测演示系统【含源码】 【深度学习】物体检测/实例分割/物体追踪/姿态估计/定向边框/图像分类检测演示系统【含源码】 【深度学习】YOLOV8数据标注及模型训练方法整…...
Halcon 多相机统一坐标系
小杨说事-基于Halcon的多相机坐标系统一原理个人理解_多相机标定统一坐标系-CSDN博客 一、概述 最近在搞多相机标定等的相关问题,对于很大的场景,单个相机的视野是不够的,就必须要统一到一个坐标系下,因此我也用了4个相机&#…...
Apache Kylin:大数据分析从入门到精通
一、Kylin简介 Apache Kylin是一个分布式数据分析引擎,专为处理海量数据设计,能够在极短时间内对超大规模数据集进行OLAP(Online Analytical Processing)分析。Kylin通过预计算和高效的查询机制,为用户提供秒级的查询响应时间,支持与Hadoop、Hive、HBase等大数据平台无缝…...
SQL Server 2016导入.bak文件到数据库里面步骤
1、打开SSMS管理器 选择数据库 右键 然后点击还原数据库。 2、选择设备 然后点击三个点 找到本地bak文件,然后点击确定 3、点击确定,会自动弹出来一个成功的提示。...
WPF Frame 简单页面切换示例
原理比较简单,但是有个坑,为了使界面能够正确更新,记得使用 INotifyPropertyChanged 接口来实现属性更改通知。 <Window x:Class"PageTest.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation&…...
kafka-生产者监听器(SpringBoot整合Kafka)
文章目录 1、生产者监听器1.1、创建生产者监听器1.2、创建生产者拦截器1.3、发送消息测试1.4、使用Java代码创建主题分区副本1.5、application.yml配置----v1版1.6、屏蔽 kafka debug 日志 logback.xml1.7、引入spring-kafka依赖1.8、控制台日志 1、生产者监听器 1.1、创建生产…...
3D感知视觉表示与模型分析:深入探究视觉基础模型的三维意识
在深度学习与大规模预训练的推动下,视觉基础模型展现出了令人印象深刻的泛化能力。这些模型不仅能够对任意图像进行分类、分割和生成,而且它们的中间表示对于其他视觉任务,如检测和分割,同样具有强大的零样本能力。然而࿰…...
VS2019+QT5.15调用动态库dll带有命名空间
VS2019QT5.15调用动态库dll带有命名空间 vs创建动态库 参考: QT调用vs2019生成的c动态库-CSDN博客 demo的dll头文件: // 下列 ifdef 块是创建使从 DLL 导出更简单的 // 宏的标准方法。此 DLL 中的所有文件都是用命令行上定义的 DLL3_EXPORTS // 符号…...
助力草莓智能自动化采摘,基于YOLOv5全系列【n/s/m/l/x】参数模型开发构建果园种植采摘场景下草莓成熟度智能检测识别系统
随着科技的飞速发展,人工智能(AI)技术已经渗透到我们生活的方方面面,从智能家居到自动驾驶,再到医疗健康,其影响力无处不在。然而,当我们把目光转向中国的农业领域时,一个令人惊讶的…...
C++中的生成器模式
目录 生成器模式(Builder Pattern) 实际应用 构建一辆汽车 构建一台计算机 构建一个房子 总结 生成器模式(Builder Pattern) 生成器模式是一种创建型设计模式,它允许你分步骤创建复杂对象。与其他创建型模式不同…...
基于python的PDF文件解析器汇总
基于python的PDF文件解析器汇总 大多数已发表的科学文献目前以 PDF 格式存在,这是一种轻量级、普遍的文件格式,能够保持一致的文本布局和格式。对于人类读者而言, PDF格式的文件内容展示整洁且一致的布局有助于阅读,可以很容易地…...
C++多线程同步总结
C多线程同步总结 关于C多线程同步 一、C11规范下的线程库 1、C11 线程库的基本用法:创建线程、分离线程 #include<iostream> #include<thread> #include<windows.h> using namespace std; void threadProc() {cout<<"this is in t…...
【机器学习】基于CNN-RNN模型的验证码图片识别
1. 引言 1.1. OCR技术研究的背景 1.1.1. OCR技术能够提升互联网体验 随着互联网应用的广泛普及,用户在日常操作中频繁遇到需要输入验证码的场景,无论是在登录、注册、支付还是其他敏感操作中,验证码都扮演着重要角色来确保安全性。然而&am…...
一文读懂Samtec分离式线缆组件选型 | 快速攻略
【摘要/前言】 2023年,全球线缆组件市场规模大致在2100多亿美元。汽车和电信行业是线缆组件最大的两个市场,中国和北美是最大的两个制造地区。有趣的是,特定应用(即定制)和矩形组件是两个最大的产品组。 【Samtec产品…...
批量申请SSL证书如何做到既方便成本又最低
假如您手头拥有1千个域名,并且打算为每一个域名搭建网站,那么在当前的网络环境下,您必须确保这些网站通过https的方式提供服务。这意味着,您将为每一个域名申请SSL证书,以确保网站数据传输的安全性和可信度。那么&…...
Python 设计模式(创建型)
文章目录 抽象工厂模式场景示例 单例模式场景实现方式 工厂方法模式场景示例 简单工厂模式场景示例 建造者模式场景示例 原型模式场景示例 抽象工厂模式 抽象工厂模式(Abstract Factory Pattern)是一种创建型设计模式,它提供了一种将一组相关…...
PyTorch 索引与切片-Tensor基本操作
以如下 tensor a 为例,展示常用的 indxing, slicing 及其他高阶操作 >>> a torch.rand(4,3,28,28) >>> a.shape torch.Size([4, 3, 28, 28])Indexing: 使用索引获取目标对象,[x,x,x,....] >>> a[0].shape torch.Size([3, 2…...
深入浅出 LangChain 与智能 Agent:构建下一代 AI 助手
我们小时候都玩过乐高积木。通过堆砌各种颜色和形状的积木,我们可以构建出城堡、飞机、甚至整个城市。现在,想象一下如果有一个数字世界的乐高,我们可以用这样的“积木”来构建智能程序,这些程序能够阅读、理解和撰写文本…...
scss是什么安装使⽤的步骤
当谈到SCSS时,我们首先需要了解它是什么。SCSS,也称为Sassy CSS,是Sass(Syntactically Awesome Stylesheets)的一种语法,它是CSS的预处理器,允许你使用变量、嵌套规则、混合(mixin&a…...
Pspark从hive读数据写到Pgsql数据库
前提条件 要使用PySpark从Hive读取数据并写入到PostgreSQL数据库,你需要确保以下几点: 你的PySpark环境已经配置好,并且能够连接到你的Hive数据。 PostgreSQL JDBC驱动程序已经添加到你的PySpark环境中。 你已经在PostgreSQL中创建好了相应…...
Pixi.js学习 (六)数组
目录 前言 一、数组 1.1 定义数组 1.2 数组存取与删除 1.3 使用数组统一操作敌机 二、实战 例题一:使用数组统一操作敌机 例题一代码: 总结 前言 为了提高作者的代码编辑水品,作者在使用博客的时候使用的集成工具为 HBuilderX。 下文所有截…...
美容公司网站什么做才好/分类信息网
引入进程和线程的概念及区别 1、线程的基本概念 概念 线程是进程中执行运算的最小单位,是进程中的一个实体,是被系统独立调度和分派的基本单位,线程自己不拥有系统资源,只拥有一点在运行中必不可少的资源,但它可与同属…...
路由器怎么做网站/seo优化常识
本文介绍使用Spire.Cloud.SDK for Java 提供的BackgroundApi接口来操作Word文档背景的方法,可设置背景,包括设置颜色背景setBackgroundColor()、图片背景setBackgroundImage(),删除背景deleteBackground()和获取背景颜色getBackgroundColor()…...
wordpress结构化标签/拉新推广赚钱的app
目录 1. asyncio 简介 1.1 协程与 asyncio协程编写的三个组成部分:1. 事件循环, 2. 回调(驱动生成器), 3. epoll(IO 多路复用) asyncio 是 python 用于解决异步 IO 编程的一整套解决方案。基于 asyncio 的框架有: torn…...
网站建设运营方案/域名停靠网页推广大全2021
实战需求 SwiftUI 制作个音乐播放器 本文价值与收获 看完本文后,您将能够作出下面的界面 截屏2020-08-18 下午3.59.50.png看完本文您将掌握的技能...
wordpress没法做大网站/网络营销工具体系
原文链接:http://www.cnblogs.com/paddix/p/5309550.html 转载于:https://www.cnblogs.com/rulian/p/8607266.html...
杭州网站建设方案服务公司/移动端seo关键词优化
在开始,我们先来看看这幅漫画的全貌! 这幅漫画是以一个房子的侧方刨面图来绘画的。使用这样的一个房子来代表 Linux 内核。 地基 作为一个房子,最重要的莫过于其地基,在这个图片里,我们也从最下面的地基开始看起&…...