自建网站怎么做推广/山东最新消息今天
概述
Snapchat作为一款备受欢迎的社交媒体应用,允许用户分享照片和视频。然而,由于其特有的内容自动消失特性,爬虫开发面临一些挑战。本文将详细介绍如何巧妙运用C#和HtmlAgilityPack库,构建一个高效的Snapchat视频爬虫。该爬虫能够从Snapchat网页版中提取视频链接,并将其下载保存到本地。为了提升爬虫的效率和可靠性,我们将使用代理IP技术和多线程技术,以规避Snapchat的反爬机制。
细节
C#和HtmlAgilityPack库
C#作为一门功能强大、易用的面向对象编程语言,适用于各类应用程序的开发。C#可以在.NET Framework或.NET Core上运行,这两者提供了丰富的类库和工具,方便开发者进行应用开发。
HtmlAgilityPack是一款专为.NET平台设计的HTML解析库,支持XPath和LINQ查询,能够轻松从HTML文档中提取数据。其强大之处在于能够处理不规范的HTML结构,同时支持对HTML文档结构和内容进行修改。HtmlAgilityPack是一个开源项目,源码和文档可在其官方网站查阅。
为使用HtmlAgilityPack库,我们需在Visual Studio中创建一个控制台应用项目,通过NuGet包管理器安装HtmlAgilityPack库。NuGet是.NET平台的包管理工具,可便捷管理项目依赖关系。
代理IP技术
代理IP技术是一种隐藏真实IP地址的方法,通过中间服务器访问目标网站,既可保护隐私安全,又能绕过地域限制和反爬机制,提高爬虫的成功率和效率。爬虫代理是一个专业服务平台,提供高质量的代理IP资源,支持多种协议和认证方式,适用于各种爬虫场景。
在C#中,使用HttpClient对象发送请求,可通过设置Proxy属性指定代理服务器的地址和认证信息,以实现代理IP的应用。
多线程技术
多线程技术是提高程序性能的有效手段,可同时执行多个任务,最大程度利用CPU资源,提高响应速度和吞吐量。对于爬虫而言,多线程技术有助于实现并发爬取,提高效率和覆盖范围。
在C#中,可通过创建Task对象,使用Task.Run方法启动新线程执行指定方法,并结合SemaphoreSlim对象限制并发线程数,保证程序稳定性。
Snapchat视频爬虫的实现
Snapchat网页版的地址是https://story.snapchat.com/,通过分析网页结构和请求,我们可以发现Snapchat网页是一个单页应用,使用React框架进行渲染。数据通过Ajax请求获取,其中包括一个token参数用于身份验证。在C#中,我们通过HttpClient对象发送请求,提取并保存token值。
主要请求为https://story.snapchat.com/api/v1/stories,获取故事列表。每个故事有id和title,可根据这些信息筛选感兴趣的故事。为获取故事的视频,需发送https://story.snapchat.com/api/v1/story/{story_id}请求,其中{story_id}是故事id。使用HttpClient对象发送这些请求,HtmlAgilityPack解析返回的JSON数据,提取视频链接,再用HttpClient对象下载并保存视频到本地。
为提升效率,采用多线程技术,为每个故事创建一个线程同时获取和下载视频。通过SemaphoreSlim对象控制线程数量,以避免Snapchat的反爬机制。
以下是完整代码,包含中文注释,可在Visual Studio中运行测试:
using System;
using System.IO;
using System.Net;
using System.Net.Http;
using System.Threading;
using System.Threading.Tasks;
using HtmlAgilityPack;namespace SnapchatVideoCrawler
{class Program{// 定义HttpClient对象,用于发送和接收HTTP请求和响应static HttpClient httpClient = new HttpClient();// 定义HtmlDocument对象,用于解析HTML文档static HtmlDocument htmlDocument = new HtmlDocument();// 定义SemaphoreSlim对象,用于控制并发线程数static SemaphoreSlim semaphoreSlim = new SemaphoreSlim(10);// 定义Snapchat网页版的网址static string snapchatUrl = "https://story.snapchat.com/";// 定义Snapchat的token值,用于验证身份,需要从浏览器的本地存储中获取static string snapchatToken = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzbmFwY2hhdCIsInN1YiI6ImFub255bW91cyIsImF1ZCI6InN0b3J5LnNuYXBjaGF0LmNvbSIsImlhdCI6MTYxNjQ4MjE3NCwiZXhwIjoxNjE2NTY4NTc0LCJqdGkiOiI1ZjYyYzQ4Zi1kYjQyLTQ3ZjUtYjEzZC0wZjQwZjEzZjIwYjgifQ.0t7gqf7Z8p0VZyXQy0sXnOa7l0o0Z8fZ6Z0T0f0f0f0";// 定义亿牛云爬虫代理的域名、端口、用户名和密码,需要从官网获取static string proxyHost = "http://www.16yun.cn";static int proxyPort = 9010;static string proxyUser = "16YUN";static string proxyPass = "16IP";// 定义视频保存的文件夹路径static string videoFolder = @"C:\SnapchatVideos\";static async Task Main(string[] args){// 创建视频保存的文件夹,如果不存在Directory.CreateDirectory(videoFolder);// 设置HttpClient对象的默认请求头,添加token值httpClient.DefaultRequestHeaders.Add("token", snapchatToken);// 获取Snapchat的故事列表var stories = await GetStoriesAsync();// 遍历每个故事foreach (var story in stories){// 获取故事的id和titlevar storyId = story.Id;var storyTitle = story.Title;// 打印故事的信息Console.WriteLine($"Story: {storyTitle} ({storyId})");// 创建并启动一个新的线程,执行GetAndDownloadVideos方法,传入故事的id和titleTask.Run(() => GetAndDownloadVideos(storyId, storyTitle));}// 等待所有线程完成await semaphoreSlim.WaitAsync();semaphoreSlim.Release();// 打印完成信息Console.WriteLine("All videos downloaded!");}// 定义一个异步方法,用于获取Snapchat的故事列表static async Task<HtmlNodeCollection> GetStoriesAsync(){// 定义Snapchat的故事列表的请求地址string storiesUrl = snapchatUrl + "api/v1/stories";// 发送GET请求,获取故事列表的JSON数据var storiesJson = await httpClient.GetStringAsync(storiesUrl);// 使用HtmlDocument对象解析JSON数据,返回一个HtmlNode对象var storiesNode = htmlDocument.Parse(storiesJson);// 使用XPath查询,从HtmlNode对象中提取故事列表,返回一个HtmlNodeCollection对象var stories = storiesNode.SelectNodes("//stories/story");// 返回故事列表return stories;}// 定义一个异步方法,用于获取并下载一个故事的视频static async Task GetAndDownloadVideos(string storyId, string storyTitle){// 使用SemaphoreSlim对象的WaitAsync方法,尝试进入该区域,如果成功则返回一个Task对象,否则等待直到有空位await semaphoreSlim.WaitAsync();try{// 定义一个故事的详细信息的请求地址,使用故事的id替换占位符string storyUrl = snapchatUrl + $"api/v1/story/{storyId}";// 创建一个新的HttpClient对象,用于发送该请求var storyClient = new HttpClient();// 设置HttpClient对象的默认请求头,添加token值storyClient.DefaultRequestHeaders.Add("token", snapchatToken);// 创建一个新的WebProxy对象,用于设置代理服务器的地址和认证信息,使用亿牛云爬虫代理的域名、端口、用户名和密码var proxy = new WebProxy(proxyHost, proxyPort);proxy.Credentials = new NetworkCredential(proxyUser, proxyPass);// 设置HttpClient对象的Proxy属性,指定代理服务器storyClient.Proxy = proxy;// 发送GET请求,获取故事的详细信息的JSON数据var storyJson = await storyClient.GetStringAsync(storyUrl);// 使用HtmlDocument对象解析JSON数据,返回一个HtmlNode对象var storyNode = htmlDocument.Parse(storyJson);// 使用XPath查询,从HtmlNode对象中提取视频列表,返回一个HtmlNodeCollection对象var videos = storyNode.SelectNodes("//story/snaps/snap/media/video");// 遍历每个视频foreach (var video in videos){// 获取视频的链接var videoUrl = video.GetAttributeValue("url", "");// 打印视频的链接Console.WriteLine($"Video: {videoUrl}");// 下载并保存视频到本地,使用故事的title和视频的url作为文件名await DownloadVideoAsync(videoUrl, videoFolder + storyTitle + "_" + videoUrl.Split('/').Last());}}catch (Exception ex){// 如果发生异常,打印异常信息Console.WriteLine($"Error: {ex.Message}");}finally{// 使用SemaphoreSlim对象的Release方法,离开该区域,释放一个空位semaphoreSlim.Release();}}// 定义一个异步方法,用于下载并保存一个视频static async Task DownloadVideoAsync(string videoUrl, string videoPath){// 创建一个新的HttpClient对象,用于发送该请求var videoClient = new HttpClient();// 设置HttpClient对象的默认请求头,添加token值videoClient.DefaultRequestHeaders.Add("token", snapchatToken);// 创建一个新的WebProxy对象,用于设置代理服务器的地址和认证信息,使用亿牛云爬虫代理的域名、端口、用户名和密码var proxy = new WebProxy(proxyHost, proxyPort);proxy.Credentials = new NetworkCredential(proxyUser, proxyPass);// 设置HttpClient对象的Proxy属性,指定代理服务器videoClient.Proxy = proxy;// 发送GET请求,获取视频的字节数据var videoBytes = await videoClient.GetByteArrayAsync(videoUrl);// 使用File类的WriteAllBytes方法,将视频的字节数据写入到指定的文件路径File.WriteAllBytes(videoPath, videoBytes);}}
}
结束语
通过本文,我们深入探讨了如何使用C#和HtmlAgilityPack库构建一个高效的Snapchat视频爬虫。代理IP技术和多线程技术的巧妙应用使得爬虫更具稳定性和高效性。希望这篇文章对你理解爬虫技术和应用有所帮助,欢迎在实际项目中应用并根据需要进行定制。祝愿你的爬虫项目取得圆满成功!
相关文章:

使用C#和HtmlAgilityPack打造强大的Snapchat视频爬虫
概述 Snapchat作为一款备受欢迎的社交媒体应用,允许用户分享照片和视频。然而,由于其特有的内容自动消失特性,爬虫开发面临一些挑战。本文将详细介绍如何巧妙运用C#和HtmlAgilityPack库,构建一个高效的Snapchat视频爬虫。该爬虫能…...

c/c++的字符和字符串输入输出
注: 1.下面这些为本人大学四年所用过的处理办法, 至今为止遇到的所有编程题都能够使用。如果需要了解更多关于putchar,cin.get,cin.getline等的请自行搜索。 2.getchar相当于获取一个字符,可以实现单个字符的输入以及通过循环实现多个字符输…...

学习设计模式的网站
Refactoring and Design Patternshttps://refactoring.guru/...

Hadoop学习笔记(HDP)-Part.08 部署Ambari集群
目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …...

IDEA加载阿里Java规范插件
IDEA加载阿里巴巴Java开发手册插件,在写代码的时候会自动扫描代码规范。 1、打开Settings 2、打开Plugins 3、搜索Alibaba Java Code Guidelines(XenoAmess TPM)插件,点击Install进行安装,然后重启IDE生效。 4、鼠标右…...

【CSP】202305-1_重复局面Python实现
文章目录 [toc]试题编号试题名称时间限制内存限制题目背景问题描述输入格式输出格式样例输入样例输出样例说明子任务提示Python实现 试题编号 202305-1 试题名称 重复局面 时间限制 1.0s 内存限制 512.0MB 题目背景 国际象棋在对局时,同一局面连续或间断出现3次或3…...

html5各行各业官网模板源码下载(1)
文章目录 1.来源2.源码模板2.1 HTML5白色简洁设计师网站模板2.2 HTML5保护野生动物响应式网站模板 作者:xcLeigh 文章地址:https://blog.csdn.net/weixin_43151418/article/details/134682321 html5各行各业官网模板源码下载,这个主题覆盖各行…...

6 Redis缓存设计与性能优化
缓存穿透 缓存穿透是指查询一个根本不存在的数据, 缓存层和存储层都不会命中, 通常出于容错的考虑, 如果从存储层查不到数据则不写入缓存层。缓存穿透将导致不存在的数据每次请求都要到存储层去查询, 失去了缓存保护后端存储的意义…...

SpringCloud常见问题
1、什么是Spring Cloud? Spring Cloud是一款基于Spring Boot框架开发的微服务框架,它为开发人员提供了一系列的组件和工具,可以帮助开发人员快速构建和部署微服务,提高开发效率和项目可维护性。Spring Cloud提供了包括服务注册与…...

实战演练 | 在 Navicat 中格式化日期和时间
Navicat 支持团队收到来自用户常问的一个问题是,如何将网格和表单视图中的日期和时间进行格式化。其实这个很简单。今天,我们将介绍在 Navicat Premium 中进行全局修改日期和时间格式的步骤。 如果你想边学边用,欢迎点击 这里 下载免费全功能…...

mysql面试题分享带答案
数据库索引的原理,为什么要用B树,为什么不用二叉树? 可以从几个维度去看这个问题,查询是否够快,效率是否稳定,存储数据多少,以及查找磁盘次数,为什么不是二叉树,为什么不…...

利用 Python进行数据分析实验(一)
一、实验目的 使用Python解决简单问题 二、实验要求 自主编写并运行代码,按照模板要求撰写实验报告 三、实验步骤 本次实验共有5题: 有四个数字:1、2、3、4,能组成多少个互不相同且无重复数字的三位数?各是多少&…...

Jupyter Notebook工具
Jupyter Notebook 是一个交互式的笔记本环境,允许用户以网页形式编写和分享代码、文本、图像以及其它多媒体内容。它支持超过 40 种编程语言,最常用的是 Python。 以下是 Jupyter Notebook 工具的一些特点和用法: 1. 特点: 交互式…...

c语言上机小练(有点难)
1.题目 用指向数组的指针编程实现:输入一个字符串,内有数字和非数字符号,如:a123x456(此处一个空格)17960?302tab5876。将其中连续的数字作为一个十进制整数,依次存放到一个数组a中。例如&…...
<JavaEE> 什么是线程安全?产生线程不安全的原因和处理方式
目录 一、线程安全的概念 二、线程不安全经典示例 三、线程不安全的原因和处理方式 3.1 线程的随机调度和抢占式执行 3.2 修改共享数据 3.3 关键代码或指令不是“原子”的 3.4 内存可见性和指令重排序 四、Java标准库自带的线程安全类 一、线程安全的概念 线程安全是指…...

Kotlin 中的 also 和 run:选择正确的作用域函数
在 Kotlin 中,also 和 run 是两个十分有用的作用域函数。 虽然它们在功能上相似,但各自有独特的用途和适用场景。 一、分析: also:在对象的上下文中执行给定的代码块,并返回对象本身。它的参数是一个接收对象并返回…...

ZKP Understanding Nova (1): MinRoot Example
Understanding Nova Kothapalli, Abhiram, Srinath Setty, and Ioanna Tzialla. “Nova: Recursive zero-knowledge arguments from folding schemes.” Annual International Cryptology Conference. Cham: Springer Nature Switzerland, 2022. Nova: Paper Code 1. Unders…...

0基础学java-day14
一、集合 前面我们保存多个数据使用的是数组,那么数组有不足的地方,我们分析一下 1.数组 2 集合 数据类型也可以不一样 3.集合的框架体系 Java 的集合类很多,主要分为两大类,如图 :[背下来] package com.hspedu.c…...

创建conan包-工具链
创建conan包-工具链 1 Toolchains 本文是基于对conan官方文档Toolchains翻译而来, 更详细的信息可以去查阅conan官方文档。 1 Toolchains Toolchains are the new way to integrate with build systems in Conan. Recipes can define a generate() method that wi…...

IntelliJ IDE 插件开发 | (二)UI 界面与数据持久化
系列文章 IntelliJ IDE 插件开发 |(一)快速入门 前言 在上一篇文章中介绍了在IDEA下开发、运行和安装插件的基本步骤,因此创建项目等基础步骤不再赘述,本文则开始介绍如何进行 UI 界面的开发以及相关数据的持久化存储ÿ…...

使用vue UI安装路由插件
1.使用vue创建项目 vue create vue-appvue ui 2.使用vue ui界面创建管理项目 终端页面输入:vue ui 创建项目 安装完成。可以直接在ui界面运行,也可以在编辑器中使用命令运行 安装路由,安装状态 选择插件 - 添加vue-router、添加vuex 安装…...

RPG项目01_脚本代码
基于“RPG项目01_场景及人物动画管理器”,我们创建一个XML文档 在资源文件夹下创建一个文件夹, 命名为Xml 将Xnl文档拖拽至文件夹中, 再在文件夹的Manager下新建脚本LoadManager 写代码: using System.Collections; using System…...

目标检测YOLO实战应用案例100讲-交通目标数据集构建及高性能检测算法研究与应用
目录 前言 国内外研究现状 目标检测研究现状 目标检测数据集研究现状...

浅谈Vue.js的计算属性computed
什么是computed属性 computed 属性用于声明计算属性,这些属性的值是基于其他响应式属性计算而来的,当依赖的响应式属性发生变化时,计算属性会自动重新计算。 与Vue.js 2相比,Vue.js 3的 computed 属性语法稍有变化,不…...

Linux常用指令详解
目录 前言: Linux的目录结构 Linux常用指令简介 whoami指令 ls指令 pwd指令 cd指令 tree指令 touch指令 mkdir指令 rmdir指令与rm指令 man指令 cp(copy)指令 mv(move)指令 cat指令 重定向及重定向的类型…...

Nginx(性能优化)
到这里文章的篇幅较长了,最后再来聊一下关于Nginx的性能优化,主要就简单说说收益最高的几个优化项,在这块就不再展开叙述了,毕竟影响性能都有多方面原因导致的,比如网络、服务器硬件、操作系统、后端服务、程序自身、数…...

机器学习笔记 - 如何在Python中对网格和点云进行体素化?
一、简述 本文主要是为了了解如何生成体素表示,体素之于3D就像像素之于2D。体素本质上是 3D 像素,但它们不是正方形,而是完美的立方体。 理论上,体素是复制现实的完美建模技术。 这里我们要了解四个广泛流行的 Python 库(Open3D、Trimesh、PyVista、pyntcloud )生成点云…...

冒个泡!OceanBase亮相 2023 新加坡金融科技节
近日,OceanBase 亮相 Singapore Fintech Festival 2023(2023 新加坡金融科技节)!本届新加坡金融科技节于 2023 年 11 月 15 日至 17 日在新加坡博览展览中心举行,展会期间,OceanBase 得到了众多金融科技机构…...

正则表达式(5):常用符号
正则表达式(5):常用符号 小结 本博文转载自 在本博客中,”正则表达式”为一系列文章,如果你想要从头学习怎样在Linux中使用正则,可以参考此系列文章,直达链接如下: 在Linux中使用正…...

Web安全漏洞分析-XSS(下)
随着互联网的迅猛发展,Web应用的普及程度也愈发广泛。然而,随之而来的是各种安全威胁的不断涌现,其中最为常见而危险的之一就是跨站脚本攻击(Cross-Site Scripting,简称XSS)。XSS攻击一直以来都是Web安全领…...