当前位置: 首页 > news >正文

【Ruby爬虫01】某吃瓜网站图片数据采集

介绍

由于最近在学习Ruby,写一个爬虫锻炼一下。涉及xml解析、多线程、xpath语法等基础知识。

实现代码

使用说明

使用前请先安装如下gem

gem install  nokogiri http openssl# nokogiri:一个解析xml和html的库,支持css、xpath语法
# http:一个发送http请求的库
源代码
require 'nokogiri'  
require 'openssl'  
require 'time'  
require 'http'  
require 'thread'  # 由于网站涉不良内容,网站已编码,自行研究解码方式  
BASE_URL = 'l5VKR[9`aI10.P;m*LzIh,]@P17&0^F' # AES-128-CBC解密 ,网站图片有加密,需要解密 
def aes_128_cbc_decrypt(encrypted_data, key = 'f5d965df75336270', iv = '97b60394abc2fbe1')  aes = OpenSSL::Cipher.new('aes-128-cbc')  aes.decrypt  aes.key = key  aes.iv = iv  aes.padding = 0  # 禁用填充  aes.update(encrypted_data) + aes.final  
end  # 获取页面  
def get_page_doc(page_url)   begin    # 使用HTTP.follow自动跟随重定向  resp = HTTP.follow.get(page_url)  # 转换为doc  doc = Nokogiri::HTML(resp.body.to_s)  rescue Exception => e  puts e.message  end  doc  
end  # 获取列表页面  
def fetch_list_urls(doc)  page_list = []  urls = []  infos = []  # 获取页面链接地址  doc.xpath('//*[@id="archive"]/article/a/@href').each do |link|  # 添加  urls << BASE_URL + link  end  # 匹配标题及发布时间  doc.xpath('//*[@class="post-card"]/div[2]/div').each do |title|  info = {}  if title.content.gsub(/\s+/,'')!=''  # 获取标题  t = title.xpath('h2[@class="post-card-title"]/text()')[0].content  # 获取发布时间  time_str = title.xpath('div[@class="post-card-info"]/span[2]/@content')[0].content  publish_time = Time.parse(time_str).strftime('%Y/%m/%d')  info['title'] , info['publish_time']= t ,publish_time  infos << info  else  # 内容为空的都为广告  info['title'], info['publish_time'] = '',''  infos << info  end  end  # 转换hash对象  urls.each_with_index do |url, i|  page= {'url' => url,'title'=>infos[i]['title'],'publish_time'=> infos[i]['publish_time']}  page_list << page  end  # 返回page_list  page_list  
end  # 获取某一页的图片  
def fetch_page(title,page_url)   doc = get_page_doc(page_url)  # 去除特殊字符,不然创建目录会失败,windows环境  title = title.gsub(/[“”:、\-*<>?\|\/?!!\s]*/,'')  # filename = "images/#{title}"  filename = File.join(File.dirname($0), "images/#{title}")  unless doc.nil?  # 创建目录  Dir.mkdir(filename) unless Dir.exist?(filename)  # 匹配页面中的图片  urls = doc.xpath('//*[@itemprop="articleBody"]/p/img/@data-xkrkllgl')  # 将url添加进队列  work_queue = Queue.new  urls.each { |img_url| work_queue << img_url }  workers = (1..urls.size).map do |i|  Thread.new(i) do  begin            while (img_url = work_queue.pop(true))  begin  p "下载图片:#{img_url.content}"  # 读取图片数据,设置超时时间为3s  raw_data = HTTP.timeout(3).get(img_url.content).body.to_s  sleep 0.1  # 解密保存  raw_data = aes_128_cbc_decrypt(raw_data)  File.binwrite("#{filename}/image#{i}.jpg", raw_data)  rescue Exception => e  p e.message  next  end            end          rescue ThreadError    end  end    end    workers.map(&:join)  end  
end  def start_crawl  page_index = 1  loop do  begin      url = "#{BASE_URL}category/wpcz/#{page_index}/" # 今日吃瓜页面  p "正在抓取#{page_index}页,地址:#{url}"  doc = get_page_doc(url)  fetch_list_urls(doc).each do |page|  fetch_page(page['title'],page['url'])  end  # 匹配下一页按钮  next_page_xpath = '//*[@class="page-navigator"]/ol/li[@class="btn btn-primary next"]/a/text()'  # 退出抓取的条件  break if  doc.xpath(next_page_xpath)[0].content != "下一页"  # 抓取下一页  page_index += 1  sleep 0.1  rescue Exception => e  p e.message  page_index += 1  next  end  endend  # 执行抓取方法  
if __FILE__==$0  start_crawl  
end

本文由【产品经理不是经理】gzh 同步发布,欢迎关注

相关文章:

【Ruby爬虫01】某吃瓜网站图片数据采集

介绍 由于最近在学习Ruby&#xff0c;写一个爬虫锻炼一下。涉及xml解析、多线程、xpath语法等基础知识。 实现代码 使用说明 使用前请先安装如下gem gem install nokogiri http openssl# nokogiri&#xff1a;一个解析xml和html的库&#xff0c;支持css、xpath语法 # htt…...

可以免费领取tokens的大模型服务

本文更新时间&#xff1a;2024年6月20日 豆包大模型 “亲爱的客户&#xff0c;模型提供方将在5月15日至8月30日期间&#xff0c;为您提供一次独特的机会&#xff0c;即高达5亿tokens的免费权益。这是我们对您长期支持的感谢&#xff0c;也是对未来合作的期待。” 在8月30日之…...

NSSCTF-Web题目11

目录 [鹤城杯 2021]EasyP 1、题目 2、知识点 3、思路 [SWPUCTF 2022 新生赛]numgame 1、题目 2、知识点 3、思路 [鹤城杯 2021]EasyP 1、题目 2、知识点 php代码审计 3、思路 打开题目&#xff0c;出现一段代码&#xff0c;我们对代码进行审计 这里出现了很多不懂的…...

【数据结构】第十八弹---C语言实现堆排序

✨个人主页&#xff1a; 熬夜学编程的小林 &#x1f497;系列专栏&#xff1a; 【C语言详解】 【数据结构详解】【C详解】 目录 1、堆排序 1.1、基本思想 1.2、初步代码实现 1.3、代码优化 1.4、代码测试 总结 1、堆排序 在博主数据结构第十二弹---堆的应用有详细讲解堆…...

[面试题]Kafka

[面试题]Java【基础】[面试题]Java【虚拟机】[面试题]Java【并发】[面试题]Java【集合】[面试题]MySQL[面试题]Maven[面试题]Spring Boot[面试题]Spring Cloud[面试题]Spring MVC[面试题]Spring[面试题]MyBatis[面试题]Nginx[面试题]缓存[面试题]Redis[面试题]消息队列[面试题]…...

centos7 离线安装zip和unzip

解压的时候发现不能解压&#xff0c;报-bash: unzip: command not found 1、访问https://www.rpmfind.net/linux/rpm2html/search.php?queryzip&submitSearch…&systemcentos&arch#/ 2、输入zip和centos搜索&#xff0c;选择el7下载 3、输入unzip和centos搜索&am…...

Linux下lsof命令使用

目录 lsof 命令使用指南基本语法常用选项使用示例 lsof vs netstatlsofnetstat区别示例对比 lsof 命令使用指南 lsof (List Open Files) 是一个用于列出当前系统中打开文件的命令&#xff0c;适用于 Unix 和类 Unix 操作系统。它不仅可以列出常规文件&#xff0c;还可以列出打…...

基于ChatGPT的大型语言模型试用心得

近年来&#xff0c;ChatGPT这样的大型语言模型&#xff0c;它如同一颗冉冉升起的新星&#xff0c;迅速在商业、教育、娱乐等多个领域照亮了创新的天空&#xff0c;极大地革新了我们的工作与日常生活。 最近我发现一些国内用户也能自由访问的中文ChatGPT APP。这个平台不仅提供…...

Python 列表添加多个值(四种方法)

Python 列表添加多个值有多种方法,以下是其中几种实现方法: 一、使用extend()方法 Python 中列表对象有一个 extend() 方法,它可以一次性添加另一个列表中的所有元素到当前列表中。 例1: a = [1, 2, 3] b = [4, 5, 6] a.extend(b)...

VMware RedHat虚拟机磁盘扩容(添加磁盘和扩展磁盘)

前言 自己的电脑上配一个虚拟机还是很有必要的&#xff0c;用起来比双系统方便一点&#xff0c;之前搞了100g的ubuntu没用到&#xff0c;后面重装redhat觉得随便搞个20g就够用了&#xff0c;后面用到之后就遇到磁盘不够用的情况&#xff0c;只能说情况允许的话&#xff0c;磁盘…...

最近,GPT-4o横空出世。对GPT-4o这一人工智能技术进行评价,包括版本间的对比分析、GPT-4o的技术能力以及个人整体感受等

GPT-4o是一款引人瞩目的人工智能技术&#xff0c;它在之前版本的基础上取得了长足的进步。本文将对GPT-4o进行评价&#xff0c;包括版本间的对比分析、GPT-4o的技术能力以及个人整体感受等。 首先&#xff0c;我们来进行GPT-4o与之前版本的对比分析。GPT-4o相较于GPT-3和GPT-2…...

C#面:C#支持多重继承么?

C#不支持多重继承。在C#中&#xff0c;一个类只能直接继承自一个基类。这是由于C#的设计目标之一是避免多重继承可能带来的复杂性和潜在的问题。 然而&#xff0c;C#提供了接口&#xff08;interface&#xff09;的概念来实现类似多重继承的功能。一个类可以实现多个接口&…...

细说MCU修改回调函数调用模式的方法

目录 1、硬件及工程 2、实现方法 &#xff08;1&#xff09;修改while(1)中的代码&#xff1a; &#xff08;2&#xff09;修改2 &#xff08;3&#xff09;修改3 &#xff08;4&#xff09;修改4 &#xff08;5&#xff09;修改5 3、下载并运行 在本文作者的文章中&a…...

Java共享台球室无人系统支持微信小程序+微信公众号

共享台球室无人系统 &#x1f3b1; 创新台球体验 近年来&#xff0c;共享经济如火如荼&#xff0c;从共享单车到共享汽车&#xff0c;无一不改变着我们的生活方式。而如今&#xff0c;这一模式已经渗透到了更多领域&#xff0c;共享台球室便是其中之一。不同于传统的台球室&a…...

如何开发一个海外仓系统?难度在哪,怎么选择高性价解决方案

作为海外仓管理的重要工具&#xff0c;海外仓系统的实际应用价值还是非常高的。为了让大家能更好的理解wms海外仓系统&#xff0c;今天会介绍海外仓系统开发的逻辑架构&#xff0c;以及作为海外仓企业要怎么确定高性价比的数字化管理解决方案。 1、开发海外仓系统要考虑的功能…...

计算机组成原理(Wrong Question)

目录 一、计算机系统概述 *1.1 计算机发展历程 1.2 计算机系统层次结构 1.3 计算机的性能指标 二、 数据的表示和运算 2.1 数制和编码 2.2 运算方法和运算电路 2.3 浮点数的表示与运算 三、存储系统 3.1 存储器概述 3.2 主存储器 3.3 主存储器与CPU的连接 3.4 外部…...

ACL2024 | AI的时空穿越记:大型语言模型共时推理的奇幻之旅!

作者&#xff1a;苏肇辰 标题&#xff1a;Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? 录取&#xff1a;ACL2024 Main 论文链接&#xff1a;https://arxiv.org/abs/2406.09072 代码链接&#xff1a;https://github.com/zhaochen0110/Cotem…...

从xxl-job源码中学习Netty的使用

1. 启动与Spring实例化 com.xxl.job.core.executor.impl.XxlJobSpringExecutor.java类 继承SmartInitializingSingleton 类&#xff0c;在afterSingletonsInstantiated 实例化后方法中 调用initJobHandlerMethodRepository 把所有的xxljob任务管理起来&#xff1b; private…...

人工智能发展历程了解和Tensorflow基础开发环境构建

目录 人工智能的三次浪潮 开发环境介绍 Anaconda Anaconda的下载和安装 下载说明 安装指导 模块介绍 使用Anaconda Navigator Home界面介绍 Environment界面介绍 使用Jupter Notebook 打开Jupter Notebook 配置默认目录 新建文件 两种输入模式 Conda 虚拟环境 添…...

makefile追加warning日志

在Makefile中&#xff0c;你不能直接“追加”warning日志到构建过程中&#xff0c;但你可以通过几种方式在构建时产生额外的警告或消息。以下是一些常用的方法&#xff1a; 使用echo或printf命令&#xff1a; 在Makefile的规则中&#xff0c;你可以使用echo或printf命令来输出警…...

不要直接使用unidefined 而使用void 0

为什么不要使用unidefined 而使用void 0? 在JavaScript中&#xff0c;undefined 和 void 0 都可以用来表示未定义的值&#xff0c;但它们在使用和上下文中有一些微妙的差异&#xff0c;这也是为什么有时可能会推荐使用 void 0 而不是直接使用 undefined。 全局污染&#xff…...

注解详解系列 - @Scope:Bean作用域管理

注解简介 在今天的注解详解系列中&#xff0c;我们将探讨Scope注解。Scope是Spring框架中的一个重要注解&#xff0c;用于定义Spring bean的作用域。通过指定bean的作用域&#xff0c;我们可以控制bean的生命周期和创建方式。 注解定义 Scope注解用于指定Spring bean的作用域…...

数学建模基础:数学建模概述

目录 前言 一、数学建模的步骤 二、模型的分类 三、模型评价指标 四、常见的数学建模方法 实际案例&#xff1a;线性回归建模 步骤 1&#xff1a;导入数据 步骤 2&#xff1a;数据预处理 步骤 3&#xff1a;建立线性回归模型 步骤 4&#xff1a;模型验证 步骤 5&…...

人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)

开源大语言模型完整列表 Large Language Model (LLM) 即大规模语言模型&#xff0c;是一种基于深度学习的自然语言处理模型&#xff0c;它能够学习到自然语言的语法和语义&#xff0c;从而可以生成人类可读的文本。 所谓"语言模型"&#xff0c;就是只用来处理语言文…...

数据结构之B树

引言 在计算机科学中&#xff0c;数据结构是用于组织和存储数据的关键工具。其中&#xff0c;B树&#xff08;B-tree&#xff09;作为一种自平衡的树形数据结构&#xff0c;被广泛应用于数据库和文件系统中&#xff0c;以提高查找、插入、删除和范围查询的效率。本文将深入探讨…...

双色球预测算法(Java),——森林机器学习、时间序列

最近AI很火&#xff0c;老想着利用AI的什么算法&#xff0c;干点什么有意义的事情。其中之一便想到了双色球&#xff0c;然后让AI给我预测&#xff0c;结果基本都是简单使用随机算法列出了几个数字。 额&#xff0c;&#xff0c;&#xff0c;&#xff0c;咋说呢&#xff0c;双…...

【计算机网络篇】数据链路层(11)在数据链路层扩展以太网

文章目录 &#x1f354;使用网桥在数据链路层扩展以太网&#x1f95a;网桥的主要结构和基本工作原理&#x1f388;网桥的主要结构&#x1f50e;网桥转发帧的例子&#x1f50e;网桥丢弃帧的例子&#x1f50e;网桥转发广播帧的例子 &#x1f95a;透明网桥&#x1f50e;透明网桥的…...

Ubuntu20.04 使用scrapy-splash爬取动态网页

我们要先安装splash服务&#xff0c;使用dock安装&#xff0c;如果dock没有安装&#xff0c;请参考我的上一篇博文&#xff1a; 按照官方文档&#xff1a;https://splash.readthedocs.io/en/stable/install.html 1.下载splash sudo docker pull scrapinghub/splash2.安装scrapy…...

Function:控制继电器上下电,上电后adb登录,copy配置文件

import serial import time import datetime import subprocess import osdef append_to_txt(file_path, content):if os.path.exists(file_path):with open(file_path, a) as file: # 使用 a 模式打开文件进行追加file.write(content \n) # 追加内容&#xff0c;并换行else…...

香港电讯高可用网络助力企业变革金融计算

客户背景 客户是一家金融行业知名的量化私募对冲基金公司&#xff0c;专注于股票、期权、期货、债券等主要投资市场&#xff0c;在量化私募管理深耕多年&#xff0c;目前资管规模已达数百亿级&#xff0c;在国内多个城市均设有办公地点。 客户需求 由于客户业务倚重量化技术…...

ps做网站效果图制作过程/为什么不能去外包公司

PTP模式下&#xff0c;异步接收消息需要定义一个MessageListener来监听&#xff0c;当生产者有消息要发送时会主动通知Listener去处理该消息&#xff0c;会调用监听的onMessage方法去处理。 首先看生产者(和同步接收时没有任何区别)&#xff1a; package com.thunisoft.jms.min…...

大连辰熙大厦做网站/百度爱采购平台官网

问题描述&#xff1a;大约24小时会慢于标准时间1小时。分析结果&#xff1a;经过确认&#xff0c;原因为RHEL7采用chrony同步时间。不再使用以前的ntp协议&#xff0c;以至我如何修改和配置ntp服务均无效&#xff08;时间不断前后漂移&#xff09;。相关知识&#xff1a;chrony…...

pub域名怎么做网站/互联网营销的优势

待补充转载于:https://www.cnblogs.com/rain144576/p/9940833.html...

云南网站建/百度引擎搜索推广

对matlab输出数据格式进行讲解有助于设置输出数据位数如何控制matlab中的数据输出格式&#xff1f; 改变输出位数精度一. 命令方法针对数据的显示形式控制&#xff0c;matlab中有专用命令 format但该命令不影响数据的储存形式和计算精度format 默认格式format short 5字长定点数…...

关于网站建设的知识/免费推广产品平台有哪些

如下图&#xff1a;...

固镇网站建设哪家好/如何写推广软文

直接点击跳转到系统设置界面, 设置通知定位等等 在操作之前, 你需要info中设置 URLTypes, 如下图所示 直接通过 root *什么来配置NSArray *dataArray [ {"系统设置":"prefs:rootINTERNET_TETHERING"}, {"WIFI设置":"prefs:rootWIFI&quo…...