记一次抓取网页内容
已打码
// ==UserScript==
// @name ---------
// @namespace http://tampermonkey.net/
// @version 0.1
// @description https://---------oups/{id}/topics?scope=all&count=20&begin_time=2022-09-01T00%3A00%3A00.000%2B0800&end_time=2022-10-01T00%3A00%3A00.000%2B08
// @author 非
// @run-at document-end
// @require https://cdn.jsdelivr.net/jquery/latest/jquery.min.js
// @require https://cdn.jsdelivr.net/momentjs/latest/moment.min.js
// @require https://cdnjs.cloudflare.com/ajax/libs/bootstrap-daterangepicker/3.1/daterangepicker.min.js
// @match https://--------2/index/group/*
// @icon https://--------mages/favicon_32.ico
// @license MIT
// ==/UserScript==;(() => {let dateRange = [];let link = document.createElement("link");link.rel = "stylesheet";link.href="https://cdn.jsdelivr.net/npm/daterangepicker/daterangepicker.css";document.head.appendChild(link);let navBarElem = document.querySelector('.---nt-datepicker');// Remove existingnavBarElem && navBarElem.remove();// navBar buttonnavBarElem = document.createElement('div');navBarElem.classList.add('zsxq-content-datepicker');navBarElem.innerHTML = '<input id="demo" type="text" name="daterange"/>';// --- CSS Style ---const styleElem = document.createElement('style');styleElem.type = 'text/css';styleElem.innerHTML = `
.zsxq-content-datepicker {
position: fixed;
top: 1rem;
right: 30rem;
bottom: 3.5rem;
z-index: 1999;
width: 2rem;
height: 2rem;
color: white;
font-size: 1.5rem;
line-height: 2rem;
text-align: center;
cursor: pointer;
}
`;document.body.appendChild(navBarElem);document.head.appendChild(styleElem);function simulateMouseClick(targetNode) {function triggerMouseEvent(targetNode, eventType) {var clickEvent = document.createEvent('MouseEvents');clickEvent.initEvent(eventType, true, true);targetNode.dispatchEvent(clickEvent);}["mouseover", "mousedown", "mouseup", "click"].forEach(function (eventType) {triggerMouseEvent(targetNode, eventType);});}// 重新ajax请求urlconst originOpen = XMLHttpRequest.prototype.open;XMLHttpRequest.prototype.open = function (_, url) {let match = /https\:\/\/------------+\/topics\?scope=all\&count=20/.test(url)if (dateRange.length == 2 && match) {url += `&begin_time=${dateRange[0]}T00%3A00%3A00.000%2B0800&end_time=${dateRange[1]}T00%3A00%3A00.000%2B0800`// console.log("url", url)dateRange = [];}//参考了https://developer.mozilla.org/zh-CN/docs/Web/API/XMLHttpRequest
//和 https://www.saoniuhuo.com/question/detail-2342992.html
//和https://www.sojson.com/ascii.htmloriginOpen.apply(this, arguments);this.addEventListener("readystatechange", function(event) { // 加了这个事件之后,就可以请求的时候打印了if(this.readyState == 4){console.log(this.responseText);var elementA = document.createElement('a');//文件的名称为时间戳加文件名后缀elementA.download = +new Date() + ".tpl";elementA.style.display = 'none';//生成一个blob二进制数据,内容为json数据var blob = new Blob([this.responseText]);//生成一个指向blob的URL地址,并赋值给a标签的href属性elementA.href = URL.createObjectURL(blob);document.body.appendChild(elementA);elementA.click();document.body.removeChild(elementA);}},false);};// 日期选择器$('#demo').daterangepicker({"showDropdowns": true,"autoApply": false,ranges: {'今天': [moment(), moment()],'昨天': [moment().subtract(1, 'days'), moment().subtract(1, 'days')],'最近 7 天': [moment().subtract(6, 'days'), moment()],'最近 30 天': [moment().subtract(29, 'days'), moment()],'当月': [moment().startOf('month'), moment().endOf('month')],'上月': [moment().subtract(1, 'month').startOf('month'), moment().subtract(1, 'month').endOf('month')]},"locale": {"format": "YYYY-MM-DD","separator": " 至 ","applyLabel": "查询","cancelLabel": "取消","fromLabel": "From","toLabel": "To","customRangeLabel": "自定义","weekLabel": "W","daysOfWeek": ["日","一","二","三","四","五","六"],"monthNames": ["1月","2月","3月","4月","5月","6月","7月","8月","9月","10月","11月","12月"],"firstDay": 1},"alwaysShowCalendars": true,"startDate": moment().subtract(6, 'days').format('YYYY-MM-DD'),"endDate": moment().format('YYYY-MM-DD'),"opens": "left"}, function(start, end, label) {let s = start.format('YYYY-MM-DD');let e = end.add(1, "days").format('YYYY-MM-DD');console.log('New date range selected: ' + start.format('YYYY-MM-DD') + ' to ' + end.format('YYYY-MM-DD') + ' (predefined range: ' + label + ')');dateRange = [s, e];});$('#demo').on('apply.daterangepicker', function(ev, picker) {let search = document.querySelector("body > app-root > app-index > div > app-topic-flow > div > app-month-selector > ul > li:nth-child(1) > div")simulateMouseClick(search);});
})()
爬取网页有很多种方式,各有各的利弊,比如python的selenium爬虫,比如rpa的模拟操作,比如抓包,各种都ok,看具体场景适合什么,
这里有个网站非常的操作反人性,还不可复制,基于开源的精神现把他爬出来, 哦对了 上面漏说了js脚本, 这里就是利用了tampermonkey, 找到了一个类似的, 但并不符合我们的要求,另外也有bug, 即改动了url之后请求的签名也是要改的, 前几次还能用后来就会报错签名有问题.
代码如上, 这是初版,不重要,说下基本思路, 重写了ajax的请求函数, 加上了url的重写(这里已经有问题了, url改了之后(长度改了之后) 签名是变化的, js给到他们服务器的签名和服务器自己生成的签名就会对不上, 几次之后就会报签名问题), 然后把请求的结果写到了文件里 方便后续分析处理
不太会js, 需要阻断 好每次发了请求之后隔一段时间再发请求,用到了
function sleep(delay) {var start = (new Date()).getTime();while((new Date()).getTime() - start < delay) {continue;}}
把sleep放在了请求结果处理的方法里, 发现会一直阻断住请求的结束, 然后发现了
var numOneTen = Math.floor(Math.random()*60+30);setTimeout(function(){let search = document.querySelector("body > app-root > app-index > div > app-topic-flow > div > app-month-selector > ul > li:nth-child(1) > div")simulateMouseClick(search);},1000*numOneTen);
setTimeout函数, 不会阻断住, 有会把语句放在一段时间后执行. 还不错
做完的效果是, 请求了之后触发下一次请求, 下一次请求把准备好的入参的url发送出去, 再下一次请求, 一直循环.
是能跑的, 还ok, 但还是url的问题, 几次之后就报错了
尝试新方法, 不改动url自然就不会遇到签名的问题, 因为他是每次滚动到底部加载新数据的,猜想可以模拟人的滚动把数据都加载出来, 就发现了回到顶部的函数
document.getElementById("js-gotop").addEventListener("click", function() {document.body.scrollTop = document.documentElement.scrollTop = 0})
放在console里执行一下确实可以用,
然后
document.body.scrollTop = document.documentElement.scrollTop = 50000000
这个也可以用, 至此解决方案已然ok.
首先了在console里试了下面的方式
function sleep(delay) {var start = (new Date()).getTime();while((new Date()).getTime() - start < delay) {continue;}
}
var count = 1;
while(true) {var numOneTen = Math.floor(Math.random() * 60 + 20);console.log("sleep");sleep(1000 * numOneTen)console.log("sleep over");document.body.scrollTop = document.documentElement.scrollTop = 5000*count;count = count +1 ;
}
不知道为什么不能成功.
又查了查试了下面的, ok了
setInterval(function(){document.body.scrollTop = document.documentElement.scrollTop = 1000000
},10000);
另外这个方法可以用clearTimeout来解除.
至此完成抓取, 为了他们服务器的压力和尊重作者们的知识产权, 不公开方法, 只是记录一个思考的路径和记录些有意思的东西
最近内耗中, 没时间没心情写博客,但,技术从来不是重要的, 重要的是我们做什么,做什么才是重要的,技术只是一种手段,手段可以很多, 目的唯一重要.
//参考了https://developer.mozilla.org/zh-CN/docs/Web/API/XMLHttpRequest
//和 https://www.saoniuhuo.com/question/detail-2342992.html
//和https://www.sojson.com/ascii.html
//https://blog.csdn.net/qq_22158021/article/details/79456246
//https://blog.csdn.net/wxl1555/article/details/86501049
相关文章:
![](https://www.ngui.cc/images/no-images.jpg)
记一次抓取网页内容
已打码 // UserScript // name --------- // namespace http://tampermonkey.net/ // version 0.1 // description https://---------oups/{id}/topics?scopeall&count20&begin_time2022-09-01T00%3A00%3A00.000%2B0800&end_time2022-10-01T00%…...
![](https://img-blog.csdnimg.cn/img_convert/17654c2a7bbe24f235c038b6bc6c7755.png)
parasoft帮助史密斯医疗通过测试驱动开发提供安全、高质量的医疗设备
parasoft是一家专门提供软件测试解决方案的公司,Parasoft通过其经过市场验证的自动化软件测试工具集成套件,帮助企业持续交付高质量的软件。Parasoft的技术支持嵌入式、企业和物联网市场,通过将静态代码分析和单元测试、Web UI和API测试等所有…...
![](https://img-blog.csdnimg.cn/d6cbceb9cf564574bd0cad74cb047398.png)
SpringBoot整合Oauth2开放平台接口授权案例
<!-- SpringBoot整合Web组件 --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>org.projectlombok</groupId>&l…...
![](https://www.ngui.cc/images/no-images.jpg)
Linux_创建用户
创建一个名为hello的用户,并指定/home/hello为根目录useradd -d /home/hello -m hello 设置密码 ,密码会输入两次,一次设置密码,一次确认密码,两次密码要输入的一样passwd hellouseradd的常用参数含义-d指定用户登入时的主目录&am…...
![](https://img-blog.csdnimg.cn/f25dec5be4e549f3b71b71626e2b2c1d.png)
RDD(弹性分布式数据集)总结
文章目录一、设计背景二、RDD概念三、RDD特性四、RDD之间的依赖关系五、阶段的划分六、RDD运行过程七、RDD的实现一、设计背景 1.某些应用场景中,不同计算阶段之间会重用中间结果,即一个阶段的输出结果会作为下一个阶段的输入。如:迭代式算法…...
![](https://img-blog.csdnimg.cn/img_convert/c80dfe51f82e7901659629f3c6738331.png)
服务器版RstudioServer安装与配置详细教程
Docker部署Rstudio server 背景:如果您想在服务器上运行RstudioServer,可以按照如下方法进行操作,笔者测试时使用腾讯云服务器(系统centos7),需要在管理员权限下运行 Rstudio 官方提供了使用不同 R 版本的 …...
![](https://www.ngui.cc/images/no-images.jpg)
如何在Java中将一个列表拆分为多个较小的列表
在Java中,有多种方法可以将一个列表拆分为多个较小的列表。在本文中,我们将介绍三种不同的方法来实现这一目标。 方法一:使用List.subList()方法 List接口提供了一个subList()方法,它可以用来获取列表中的一部分元素。我们可以使…...
![](https://img-blog.csdnimg.cn/12d3c32a656342909bf75cbb47ae0d8c.png)
TryHackMe-Inferno(boot2root)
Inferno 现实生活中的机器CTF。该机器被设计为现实生活(也许不是?),非常适合刚开始渗透测试的新手 “在我们人生旅程的中途,我发现自己身处一片黑暗的森林中,因为直截了当的道路已经迷失了。我啊…...
![](https://www.ngui.cc/images/no-images.jpg)
微信原生开发中 JSON配置文件的作用 小程序中有几种JSON配制文件
关于json json是一种数据格式,在实际开发中,JSON总是以配制文件的形式出现,小程序与不例外,可对项目进行不同级别的配制。Q:小程序中有几种配制文件A:小程序中有四种配制文件分别是:project.config.json si…...
![](https://www.ngui.cc/images/no-images.jpg)
【python】为什么使用python Django开发网站这么火?
关注“测试开发自动化” 弓中皓,获取更多学习内容) Django 是一个基于 Python 的 Web 开发框架,它提供了许多工具和功能,使开发者可以更快地构建 Web 应用程序。以下是 Django 开发中的一些重要知识点: MTV 模式&#…...
![](https://img-blog.csdnimg.cn/3b8eac671492422a956eba00f1006f91.png)
Java设计模式(五)—— 责任链模式
责任链模式定义如下:使多个对象都有机会处理请求,从而避免请求的发送者与接收者之间的耦合关系。将这些对象连成一条链,并沿着这条链传递该请求,知道有一个对象处理它为止。 适合使用责任链模式的情景如下: 有许多对…...
![](https://www.ngui.cc/images/no-images.jpg)
VMLogin:虚拟浏览器提供的那些亮眼的功能
像VMLogin这样的虚拟浏览器具有多种功能,如安全的浏览环境、可定制的设置、跨平台的兼容性、更快的浏览速度、广告拦截等等。 虚拟浏览器的不同功能可以为您做什么? 使用虚拟浏览器是浏览互联网和完成其他任务的安全方式,没有风险。您可以在…...
![](https://www.ngui.cc/images/no-images.jpg)
第一个错误的版本
题目 你是产品经理,目前正在带领一个团队开发新的产品。不幸的是,你的产品的最新版本没有通过质量检测。由于每个版本都是基于之前的版本开发的,所以错误的版本之后的所有版本都是错的。 假设你有 n 个版本 [1, 2, …, n],你想找出…...
![](https://img-blog.csdnimg.cn/623115940ca04093afd6b959a57fcadd.png)
2023爱分析·AIGC市场厂商评估报告:拓尔思
AIGC市场定义 市场定义: AIGC,指利用自然语言处理技术(NLP)、深度神经网络技术(DNN)等人工智能技术,基于与人类交互所确定的主题,由AI算法模型完全自主、自动生成内容,…...
![](https://www.ngui.cc/images/no-images.jpg)
MobTech|场景唤醒的实现
什么是场景唤醒? 场景唤醒是moblink的一项核心功能,可以实现从打开的Web页面,一键唤醒App,并恢复对应的场景。 场景是指用户在App内的某个特定页面或状态,比如商品详情页、活动页、个人主页等。每个场景都有一个唯一…...
![](https://img-blog.csdnimg.cn/5eda415957624e09a51921216ee7bd47.jpeg)
不在路由器上做端口映射,如何访问局域网内网站
假设现在外网有一台ADSL直接拨号上网的电脑,所获得的是公网IP。然后它想访问局域网内的电脑上面的网站,那么就需要在路由器上做端口映射。在路由器上做端口映射的具体规则是:将所有发向自己端口的数据,都转发到内网的计算机。 访…...
![](https://img-blog.csdnimg.cn/img_convert/8ca91fed20fffd0a9ce41456b803c1ef.png)
ChatGPT 辅助科研写作
前言 总结一些在科研写作中 ChatGPT 的功能,以助力提升科研写作的效率。 文章目录前言一、ChatGPT 简介1. ChatGPT 普通版与 Plus 版的区别1)普通账号2)Plus账号二、New Bing 简介1. 快速通过申请三、辅助学术写作1. 改写论文表述2. 语言润色…...
![](https://img-blog.csdnimg.cn/img_convert/1bd45ed34baf757d07012e09a5d40142.png)
MySQL最大建议行数 2000w,靠谱吗?
本文已经收录到Github仓库,该仓库包含计算机基础、Java基础、多线程、JVM、数据库、Redis、Spring、Mybatis、SpringMVC、SpringBoot、分布式、微服务、设计模式、架构、校招社招分享等核心知识点,欢迎star~ Github地址 1 背景 作为在后端圈开车的多年…...
![](https://img-blog.csdnimg.cn/80840d0c54704fcd951104a452692bee.png)
【Tomcat 学习】
Tomcat 学习 笔记记录一、Tomcat1. Tomcat目录2. Tomcat启动3. Tomcat部署项目4. 解决Tomcat启动乱码问题5. JavaWeb项目创建部署6. 打war包发布项目7. Tomcat配置文件8. Tomcat配置虚拟目录(不用在webapps目录下)9. Tomcat配置虚拟主机10. 修改web项目默认加载资源路径一、Tom…...
![](https://img-blog.csdnimg.cn/img_convert/c2e49115ba7224f14f12d04e86e7c71f.png)
重装系统如何做到三步装机
小白三步版在给电脑重装系统的过程中,它会提供系统备份、还原和重装等多种功能。下面也将介绍小白三步版的主要功能,以及使用技巧和注意事项。 主要功能 系统备份和还原:小白三步版可以帮助用户备份系统和数据,以防止重要数据丢失…...
![](https://img-blog.csdnimg.cn/802bb6e6a57945bc8fc3c11525dd7316.png)
蓝桥杯单片机第十一届省赛客观题(深夜学习——单片机)
第一场 (1)模电——》多级放大电路 阻容耦合,只通交流,不通直流。 变压器耦合,只通交流,不通直流。 光电耦合,主要是起隔离作用,更多的用在非线性的应用电路中 (2&a…...
![](https://www.ngui.cc/images/no-images.jpg)
Pandas对Excel文件进行读取、增删、打开、保存等操作的代码实现
文章目录前言一、Pandas 的主要函数包括二、使用步骤1.简单示例2.保存Excel操作3.删除和添加数据4.添加新的表单总结前言 Pandas 是一种基于 NumPy 的开源数据分析工具,用于处理和分析大量数据。Pandas 模块提供了一组高效的工具,可以轻松地读取、处理和…...
![](https://img-blog.csdnimg.cn/9d10c067afac480da5501089b72494fe.png)
js常见的9种报错记录一下
js常见报错语法错误(SyntaxError)类型错误(TypeError)引用错误(ReferenceError)范围错误(RangeError)运行时错误(RuntimeError)网络错误(NetworkError)内部错误(InternalError)URI错误(URIError)eval错误&a…...
![](https://img-blog.csdnimg.cn/d644ba219b1e478892d96299f8b94ca6.png)
ORACLE not available报错处理办法
用sqlplus的时候 连接用户总是出现ORACLE not available 解决办法: 第一步: 请输入用户名: sys as sysdba 输入口令: 已连接到空闲例程。 第二步: 先连接到管理员用户下将用例开启 SQL> startup; ORACLE 例程已经启动。 然后就会出现一下 Total S…...
![](https://img-blog.csdnimg.cn/278325f3ada346f78bf33d6186443d1d.png)
【Pandas】Python中None、null和NaN
经常混淆。 空值一般表示数据未知、不适用或将在以后添加数据。缺失值指数据集中某个或某些属性的值是不完整的。 一般空值使用None表示,缺失值使用NaN表示。 注意: python中没有null,但是有和其意义相近的None。 目录 1、None 2. NaN …...
![](https://img-blog.csdnimg.cn/d0a6abc4debd446e97d95911b6505cf0.png)
线性表的学习
线性表定义 n个类型相同数据元素的有限序列,记作:a0,a1,a2,a3,...ai-1,ai,ai1...an-1(这里的0,1,2,3,i-1,i,i1,n-1都是元素的序号) 特点 除第一个元素无直接前驱。最后一个元素无直接后续&am…...
![](https://img-blog.csdnimg.cn/img_convert/073f8a1d91905175d5464d85b4ceec31.png)
51单片机学习笔记_13 ADC
ADC 使得调节开发板上的电位器时,数码管上能够显示 AD 模块 采集电位器的电压值且随之变化。 开发板上有三个应用:光敏电阻,热敏电阻,电位器。 一般 AD 转换有多个输入,提高使用效率。 ADC 通过地址锁存与译码判断采…...
![](https://www.ngui.cc/images/no-images.jpg)
类和对象的基本认识之内部类
什么是内部类?当一个事物的内部,还有一个部分需要一个完整的结构进行描述,而这个内部的完整的结构又只为外部事物提供服 务,那么这个内部的完整结构最好使用内部类。在 Java 中,可以将一个类定义在另一个类或者一个方法…...
![](https://img-blog.csdnimg.cn/img_convert/b53e31f8e6491c5fc87d581a8693ebd8.png)
【操作系统】进程和线程是什么之间是如何通信的
文章目录1、进程1.1、什么是进程1.2、进程的状态1.3、进程的控制结构1.4、进程的控制1.5、进程的上下文切换1.6、进程上下文切换场景1.7、进程间通信2、线程2.1、什么是线程2.2、线程的上下文切换2.3、线程间通信3、线程与进程的联系1、进程 1.1、什么是进程 进程(process) 是…...
![](https://img-blog.csdnimg.cn/474438106a744d8995b1db718a06ac56.png)
setup、ref、reactive、computed
setup 理解:Vue3.0 中一个新的配置项,值为一个函数 setup 是所有 Composition API(组合API)“表演的舞台” 组件中所用到的数据、方法等,均要配置在 setup 中 setup 函数的两种返回值: 若返回一个对象…...
![](https://img-blog.csdnimg.cn/img_convert/e9a6c76b9832e07d3639ea970dca53b4.png)
毕业设计做网站功能实现不出怎么办/上海优化网站方法
文章目录 什么是SpringMVC 在很久之前比较流行的架构模式有 SSH 即( Spring Struts 对servlet进行封装 hibernate );–> 百度百科SSH框架 后来又出现了SSM( Spring Struts Mybatis ) ;注意这里还没有用 Spring MVC ,因为Spring早期发展时,Web模块并不是很好,所以这里web部…...
![](/images/no-images.jpg)
空间站对接/网站seo推广多少钱
如果你只做自己能力范围之内的事情,就永远没法进步。 2017/3/4 更新中。。。转载于:https://www.cnblogs.com/qidaiymm/p/6501607.html...
![](https://img-blog.csdnimg.cn/fe66d75db2aa4a159048e01ec3d718d4.png)
做农家乐网站/小程序自助搭建平台
命令模式(Command Pattern):将一个请求封装为一个对象,从而使我们可用不同的请求对客户进行参数化;对请求排队或者记录请求日志,以及支持可撤销的操作。 命令模式包含如下角色: Command(抽象命令类):一般是一个接口&am…...
![](https://img-blog.csdnimg.cn/20210702104917525.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjgwMjQ0Nw==,size_16,color_FFFFFF,t_70)
糗事百科 wordpress/建网站哪个平台好
目录自适应最大池化应用常用词向量CBOW模型Skip-gram模型BertBert的输入Bert的预训练过程Bert的encoderTransformer EncoderBert encoderBert的输出词向量的维度自适应最大池化 torch.nn.AdaptiveMaxPool2d(output_size, return_indicesFalse)output_size: 输出信号的尺寸,可以…...
动态asp.net网站开发教程/网店推广的渠道有哪些
此处用的是和eclipse 先与资源库同步 弹出窗口Synchronize(同步) 一般操作:先更新代码,在提交代码。先把资源库上其他人提交的代码更新下来,在把自己的代码提交上去。更新的文件只要没有红色的提示,都是不会覆盖自己写的代码的&am…...
![](/images/no-images.jpg)
网站建设规划书企业网站/付费推广有几种方式
原计划今天返回公司,因功能调整、数据补录问题延迟一天,改到明天。 今天上午跟客户领导做了一个简单汇报,把从开会以来做的工作内容做简单介绍,领导对于当前的进度不太满意,项目整体进度有些滞后。强调需要将工作做的…...