采集某新闻网资讯网站保存PDF
网址:融资总额近3亿美元、药明康德押注,这家抗衰老明星公司有何过人之处-36氪
想要抓取文章内容,但是找不到啊,可能是文字格式的问题,也可能文章内容进行了加密。
在元素中查看,window.initialState返回的就是加密的内容。那么现在又要开始解密了,准备好了吗。
先进行关键字搜索,打上断点,刷新页面。
哇撒,感觉很明显的AES解密,在控制台打印参数,ne就是密文内容
复制代码:
var ne = ee.a.enc.Utf8.parse("efabccee-b754-4c");
var re, oe = window.initialState || {};
oe.isEncrypt && (oe = JSON.parse((re = window.initialState.state,ee.a.AES.decrypt(re, ne, {mode: ee.a.mode.ECB,padding: ee.a.pad.Pkcs7}).toString(ee.a.enc.Utf8).toString())))
看一下这个ee.a,果然是标准库的解密算法,导入标准库,替换掉ee.a即可,泪目,竟然这么简单!
window是啥呢?就是一个密文的格式!
究极改进代码
const CryptoJS = require('crypto-js');window = {initialState: {"state": "","isEncrypt": true}}//window.initialState.state类似于python字典取值window['initialState'][state'']
var ne = CryptoJS.enc.Utf8.parse("efabccee-b754-4c");re = window.initialState.state;
resp = CryptoJS.AES.decrypt(re, ne, {mode: CryptoJS.mode.ECB,padding: CryptoJS.pad.Pkcs7}).toString(CryptoJS.enc.Utf8).toString()
console.log(resp)
结果为:
为了与python代码进行交互,我们对代码稍微修改一下:
const CryptoJS = require('crypto-js');
function get_content(state){window = {initialState: {"state":state,"isEncrypt": true,}}//window.initialState.state类似于python字典取值window['initialState'][state'']
//ne是密钥var ne = CryptoJS.enc.Utf8.parse("efabccee-b754-4c");re = window.initialState.state;resp = CryptoJS.AES.decrypt(re, ne, {mode: CryptoJS.mode.ECB,padding: CryptoJS.pad.Pkcs7}).toString(CryptoJS.enc.Utf8).toString()return JSON.parse(resp)
}
接着写一个python代码获取密文,与js交互,再取出内容。
import requests
import re
import execjsdef GetResponse(url):headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',}response = requests.get(url=url,headers=headers)return responsedef GetContent():link = 'https://www.36kr.com/p/2729715501638664'html = GetResponse(link).textencrypted_data = re.findall('window.initialState=\{"state":"(.*?)"',html)[0]#解析数据,提取密文内容json_code = execjs.compile(open('demo11.js', 'r', encoding='utf-8').read())result = json_code.call('get_content',encrypted_data )title = result['articleDetail']['articleDetailData']['data']['widgetTitle']content = result['articleDetail']['articleDetailData']['data']['widgetContent']return title,contentif __name__ == '__main__':title,content = GetContent()print(title)print(content)
结果展现:
好了,获取到数据后,我们的目标是保存到pdf的格式,怎么做呢?
首先,把文章内容保存成html
然后,把html文件转成pdf
先要有一个前端的模板
html_str = '''<!doctype html><html lang="en"><head><meta charset="utf-8"><title>Document</title></head><body>{article}</body></html>'''
保存成html代码
import requests
import re
import execjsdef GetResponse(url):headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',}response = requests.get(url=url,headers=headers)return responsedef GetContent():link = 'https://www.36kr.com/p/2729715501638664'html = GetResponse(link).textencrypted_data = re.findall('window.initialState=\{"state":"(.*?)"',html)[0]#解析数据,提取密文内容json_code = execjs.compile(open('demo11.js', 'r', encoding='utf-8').read())result = json_code.call('get_content',encrypted_data )title = result['articleDetail']['articleDetailData']['data']['widgetTitle']content = result['articleDetail']['articleDetailData']['data']['widgetContent']return title,content
def Save(title,content):html_str = '''<!doctype html><html lang="en"><head><meta charset="utf-8"><title>Document</title></head><body>{article}</body></html>'''string = html_str.format(article=content)html_file = 'html\\'+title+'.html'with open(html_file,mode='w',encoding='utf-8') as f:f.write(string)if __name__ == '__main__':title,content = GetContent()Save(title,content)print(title)print(content)
结果展现:
现在开始转变成pdf
import requests
import re
import execjs
import pdfkitdef GetResponse(url):headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',}response = requests.get(url=url,headers=headers)return responsedef GetContent():link = 'https://www.36kr.com/p/2729715501638664'html = GetResponse(link).textencrypted_data = re.findall('window.initialState=\{"state":"(.*?)"',html)[0]#解析数据,提取密文内容json_code = execjs.compile(open('demo11.js', 'r', encoding='utf-8').read())result = json_code.call('get_content',encrypted_data )title = result['articleDetail']['articleDetailData']['data']['widgetTitle']content = result['articleDetail']['articleDetailData']['data']['widgetContent']return title,content
def Save(title,content):html_str = '''<!doctype html><html lang="en"><head><meta charset="utf-8"><title>Document</title></head><body>{article}</body></html>'''string = html_str.format(article=content)html_file = 'html\\'+title+'.html'with open(html_file,mode='w',encoding='utf-8') as f:f.write(string)pdf_path = 'pdf\\'+title+'.pdf'config = pdfkit.configuration(wkhtmltopdf=r'C:\Users\86187\PycharmProjects\pythonProject2\wkhtmltoodf\wkhtmltopdf\bin\wkhtmltopdf.exe')pdfkit.from_file(html_file, pdf_path, configuration=config)if __name__ == '__main__':title,content = GetContent()Save(title,content)print(title)print(content)
最终成功了
如果想多爬取页面,只要获取各个页面的url就行了。也就是获取每个文章的id,交给你自己去想办法。
相关文章:
采集某新闻网资讯网站保存PDF
网址:融资总额近3亿美元、药明康德押注,这家抗衰老明星公司有何过人之处-36氪 想要抓取文章内容,但是找不到啊,可能是文字格式的问题,也可能文章内容进行了加密。 在元素中查看,window.initialState返回的就…...
03攻防世界-unserialize3
根据题目可以看出,这是个反序列化的题目 打开网址观察题目可以看到这里是php的代码,那么也就是php的反序列化 本题需要利用反序列化字符串来进行解题,根据源码提示我们需要构造code。 序列化的意思是:是将变量转换为可保存或传输…...
蓝桥杯备考随手记: 常见的二维数组问题
在Java中,二维数组是一种可以存储多个元素的数据结构。它由多个一维数组组成,这些一维数组可以看作是行和列的组合,形成了一个矩阵。 1. 二维数组旋转问题 二维数组的旋转是指将数组中的元素按照一定规则进行旋转。通常有两种常见的旋转方式…...
Java | Leetcode Java题解之第28题找出字符串中第一个匹配项的下标
题目: 题解: class Solution {public int strStr(String haystack, String needle) {int n haystack.length(), m needle.length();if (m 0) {return 0;}int[] pi new int[m];for (int i 1, j 0; i < m; i) {while (j > 0 && needl…...
【数据结构与算法】:二叉树经典OJ
目录 1. 二叉树的前序遍历 (中,后序类似)2. 二叉树的最大深度3. 平衡二叉树4. 二叉树遍历 1. 二叉树的前序遍历 (中,后序类似) 这道题的意思是对二叉树进行前序遍历,把每个结点的值都存入一个数组中,并且返回这个数组。 思路&…...
uniapp——长按识别二维码
说明 转变思路,长按图片,进入预览图片,这时候再长按就可以了。 <view class"codeMain"><view class"codeWhite" longpress"handleLongPress(i.image(qrcode))"><image :src"i.image(qrc…...
云服务器环境web环境搭建之JDK、redis、mysql
一、Linux安装jdk,手动配置环境 链接: https://pan.baidu.com/s/1LRgRC5ih7B9fkc588uEQ1whttps://pan.baidu.com/s/1LRgRC5ih7B9fkc588uEQ1w 提取码: 0413 tar -xvf 压缩包名 修改配置文件/etc/profile 二、安装redis环境 方案一: Linux下安装配置r…...
第1章 计算机网络体系结构
王道学习 【考纲内容】 (一)计算机网络概述 计算机网络的概念、组成与功能;计算机网络的分类; 计算机网络的性能指标 (二)计算机网络体系结构与参考模型 计算机网络分层结…...
Docker之自定义镜像上传至阿里云
一、Alpine介绍 Alpine Linux是一个轻量级的Linux发行版,专注于安全、简单和高效。它采用了一个小巧的内核和基于musl libc的C库,使得它具有出色的性能和资源利用率。 Alpine Linux的主要特点包括: 小巧轻量:Alpine Linux的安装…...
《深入Linux内核架构》第2章 进程管理和调度 (2)
目录 2.4 进程管理相关的系统调用 2.4.1 进程复制 2.4.2 内核线程 2.4.3 启动新程序 2.4.4 退出进程 本专栏文章将有70篇左右,欢迎关注,订阅后续文章。 2.4 进程管理相关的系统调用 2.4.1 进程复制 1. _do_fork函数 fork vfork clone都最终调用_…...
(四)PostgreSQL的psql命令
PostgreSQL的psql命令 基础信息 OS版本:Red Hat Enterprise Linux Server release 7.9 (Maipo) DB版本:16.2 pg软件目录:/home/pg16/soft pg数据目录:/home/pg16/data 端口:5777psql 是 PostgreSQL 数据库的命令行界面…...
前端使用minio传输文件
minio官方文档 minio-js可以支持ts。 安装完可能会出现 Can‘t import the named export ‘xxx‘ from non EcmaScript module (only default export is available)可以尝试降低minio的版本 npm install minio7.0.18 --save代码: 初始化 const Minio require(…...
[大模型] BlueLM-7B-Chat WebDemo 部署
BlueLM-7B-Chat WebDemo 部署 模型介绍 BlueLM-7B 是由 vivo AI 全球研究院自主研发的大规模预训练语言模型,参数规模为 70 亿。BlueLM-7B 在 C-Eval 和 CMMLU 上均取得领先结果,对比同尺寸开源模型中具有较强的竞争力(截止11月1号)。本次发布共包含 7…...
一文了解ERC404协议
一、ERC404基础讲解 1、什么是ERC404协议 ERC404协议是一种实验性的、混合的ERC20/ERC721实现的,具有原生流动性和碎片化的协议。即该协议可让NFT像代币一样进行拆分交易。是一个图币的互换协议。具有原生流动性和碎片化的协议。 这意味着通过 ERC404 协议…...
iOS cocoapods pod FrozenError and RuntimeError
0x00 报错日志 /Library/Ruby/Gems/2.6.0/gems/cocoapods-1.12.0/lib/cocoapods/user_interface/error_report.rb:34:in force_encoding: cant modify frozen String (FrozenError)from /Library/Ruby/Gems/2.6.0/gems/cocoapods-1.12.0/lib/cocoapods/user_interface/error_r…...
【鸿蒙开发】第二十章 Camera相机服务
1 简介 开发者通过调用Camera Kit(相机服务)提供的接口可以开发相机应用,应用通过访问和操作相机硬件,实现基础操作,如预览、拍照和录像;还可以通过接口组合完成更多操作,如控制闪光灯和曝光时间、对焦或调焦等。 2 …...
JS阅读笔记
myweb3.html <video id"video" width"400" height"300" autoplay></video> <button id"capture-btn">拍摄图片</button> <canvas id"canvas" width"400" height"300">&…...
基于spring boot的留守儿童爱心管理系统
基于spring boot的留守儿童爱心管理系统设计与实现 开发语言:Java 框架:springboot JDK版本:JDK1.8 服务器:tomcat7 数据库:mysql 5.7(一定要5.7版本) 数据库工具:Navicat11 开…...
python输入某年某月某日判断这一天是这一年的第几天
如何使用python实现输入某年某月某日判断这一天是这一年的第几天 from datetime import datetime #引入日期类 def is_leap_year(year):"""判断是否为闰年"""return (year % 4 0 and year % 100 ! 0) or (year % 400 0)# 根据年份和月份返回当…...
docker 上达梦导入dump文件报错:本地编码:PG GBK,导入女件编码:PGGB18030
解决方案: 第一步进入达梦数据容器内部 docker exec -it fc316f88caff /bin/bash 第二步:在容器中 /opt/dmdbms/bin目录下 执行命令 cd /opt/dmdbms/bin./dimp USERIDSYSDBA/SYSDBA001 FILE/opt/dmdbms/ZFJG_LJ20240407.dmp SCHEMASZFJG_LJUSERIDSYSD…...
一起学习python——基础篇(19)
今天来说一下python的如何修改文件名称、获取文件大小、读取文中指定的某一行内容。 1、修改文件名称: import os testPath"D:/pythonFile/test.txt" testPath2"D:/pythonFile/test2.txt" #修改文件名称使用rename方法, #第一个参…...
数模 初见数建
文章目录 初见数学建模1.1 数学建模是什么1.2 数学建模的概述1.3 如何学习数学建模---分模块化1.4 数学建模前提了解1.5 数学建模的六个步骤1.6 如何备战建模比赛1.7 数学建模赛题类型1.8 数学建模算法体系概述 初见数学建模 1.1 数学建模是什么 1.原型与模型 原型ÿ…...
windows系统搭建OCR半自动标注工具PaddleOCR
深度学习 文章目录 深度学习前言一、环境搭建准备方式1:安装Anaconda搭建1. Anaconda下载地址: [点击](https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?CM&OD)2. 创建新的conda环境 方式2. 直接安装python 二、安装CPU版本1. 安装PaddlePaddle2、安装…...
01、ArcGIS For JavaScript 4.29对3DTiles数据的支持
综述 Cesium从1.99版本开始支持I3S服务的加载,到目前位置,已经支持I3S的倾斜模型、3D Object模型以及属性查询的支持。Cesium1.115又对I3S标准的Building数据实现了加载支持。而ArcGIS之前一直没有跨越对3DTiles数据的支持,所以在一些开发过…...
Spark_SparkSql写入Oracle_Undefined function.....将长字符串写入Oracle中方法..
在使用Spark编写代码将读库处理然后写入Oracle中遇到了诸多小bug,很磨人,好在解决了。shit!! 实测1:TO_CLOB(a3) 代码样例 --这是一个sparksql写入hive的一个小逻辑,我脱敏了噻 SELECT a1, a2, TO_CLOB(a3) AS clob_data, TO_DATE(a4) AS …...
2023数据要素白皮书(免费下载)
【1】关注本公众号,转发当前文章到微信朋友圈 【2】私信发送 【2023年数据资源入表白皮书】 【3】获取本方案PDF下载链接,直接下载即可。 如需下载本方案PPT原格式,请加入微信扫描以下方案驿站知识星球,获取上万份PPT解决方案&a…...
kafka学习记录
文章目录 windows单机版kafka搭建步骤主题的增删改查操作消息的生产与消费 Windows集群版kafka搭建步骤 prettyZoo 尚硅谷Kafka教程,2024新版kafka视频,零基础入门到实战 【尚硅谷】Kafka3.x教程(从入门到调优,深入全面࿰…...
无线网络2.4和5G的区别
无线网络2.4和5的区别 无线网络2.4GHz和5GHz的主要区别在于频率、覆盖范围、传输速度、干扰能力和穿透性。以下是详细介绍:12 频率不同。2.4GHz的频率较低,而5GHz的频率较高。频率越低,信号在传播过程中的损失越小,因此覆盖范围…...
大模型笔记:Prompt tuning
1 NLP模型的几个阶段 1.1 第一阶段(在深度学习出现之前) 通常聚焦于特征工程(feature engineering)利用领域知识从数据中提取好的特征 1.2 第二阶段(在深度学习出现之后) 特征可以从数据中习得——>…...
【Ambari】Ansible自动化部署大数据集群
目录 一.版本说明和介绍信息 1.1 大数据组件版本 1.2 Apache Components 1.3 Databases支持版本 二.安装包上传和说明 三.服务器基础环境配置 3.1global配置修改 3.2主机名映射配置 3.3免密用户名密码配置 3.4 ansible安装 四. 安…...
wordpress搜索功能加强/直播回放老卡怎么回事
PHP文章摘要生成方法(函数)文章生成摘要的方法有多种,可以用JS在客户端生成,也可以在服务器端生成,当然更不排除在数据库中加一个摘要字段,在发布文章的时候自行设置。以下是在服务器端生成时的方法。我们在写BLOG时经常需要显示文…...
东阳网站制作/房地产销售怎么找客户
一、单项选择题(共 30 道试题,共 90 分。)1.下面关于电脑图形的说法中,正确的是:( )A.电脑图形是用数字或数学公式来描述的B. 使用数字视觉技术生成的图形就称为电脑图形C. 电脑图形由像素构成。每一个像素都用一定的数字来描述它的颜色D. 以…...
天津做网站的公司排名/好用的磁力搜索引擎
数据结构复习题(绪论)绪论选择题填空题简答题判断题绪论 选择题 线性结构中数据元素的位置之间存在( A )的关系 A.一对多 B.一对一 C.多对多 D.每一个元素都有一个直接前驱和一个直…...
权威的赣州网站建设/网络精准推广
彬哥哥给了个很不错的网址http://wenda.hiall.com.cn,上去做几道题感觉就是细节呀,各种细节,也许没有真正开发过软件的我不太注意这些细节,但细节决定代码的质量,代码决定软件的性能,就当扫盲好好练练吧。 …...
公司网站主机流量30g每月够用吗/小企业广告投放平台
2019独角兽企业重金招聘Python工程师标准>>> 在某些状况下,类内成员变量需要动态开辟堆内存,如果实行位拷贝,也就是把对象里的值完全复制给另一个对象,如AB。这时,如果B中有一个成员变量指针已经申请了内存…...
常州网站制作公司排名/怎样做企业推广
各位同学们大家好,我是雪山凌狐,欢迎学习python3小白课。上一节课咱们下载好了python3.8.2 64位的安装包到本地,本节课我们就来简单几步教会大家如何进行安装。实际操作,来啦~首先打开我们下载好的python安装包的目录,…...