当前位置：首页 > news >正文

5.2 Ajax 数据爬取实战

news 2026/2/8 18:04:17

1. 实战内容

2、Ajax 分析

3、爬取内容

4、存入MySQL 数据库

4.1 创建相关表

4.2 数据插入表中

5、总代码与结果

1. 实战内容

爬取Scrape | Movie的所有电影详情页的电影名、类别、时长、上映地及时间、简介、评分，并将这些内容存入MySQL数据库中。

2、Ajax 分析

根据上一篇文章5.1 Ajax数据爬取之初介绍-CSDN博客，找到详情页的数据包，如下：

根据数据包，会发现其中 Response中有我们想要的内容。查看其及其他页的Request URL，发现其规律，只需改变后面的数字，构造链接，即可一一爬取信息。

Response中想要的内容如下（为Response部分内容截图）：

等等，不难发现此内容以字典的形式呈现在我们眼前。

3、爬取内容

所以用 eval() 将字符串形式的 content 转换为字典，方便提取信息。将提取的信息汇合成字典，便于传递、存入MySQL数据库。

在爬取的过程中，会发现一些电影数据不完整，会造成错误使得程序崩溃，所以使用try...except...去避免。

import requestsdef crawler(url):response = requests.get(url)content = response.textcontent = eval(content)name = content['name']alias = content['alias']    # 外文名categories = content['categories']cate = ','.join(categories)    # 电影种类regions = content['regions']region = ','.join(regions)    # 地点publish_time = content['published_at']score = content['score']minute = content['minute']    # 时长drama = content['drama']# print(name, alias, cate, region, publish_time, score, minute, drama)movie_dict = {'name': name,'alias': alias,'cate': cate,'region': region,'publish_time':publish_time,'minute': minute,'score': score,'drama': drama}print(movie_dict)if __name__ == '__main__':last = 100for i in range(1, last+1):url = f'https://spa1.scrape.center/api/movie/{i}/'try:crawler(url)except NameError:print(f'链接{url}数据不完整')

以第一个详情页为例子展现输出结果：

之后，我们可以根据结果存入MySQL数据库。

4、存入MySQL 数据库

4.1 创建相关表

要存入数据库前，要根据字典的键创建相关表，之后才能存入表中。创建表可以在爬取数据之前创建，不需要每次循环创建一次。

相关代码见 create_table() 函数，**mysql_local 用法见上一篇文章5.1 Ajax数据爬取之初介绍-CSDN博客

def creat_table():conn = pymysql.connect(**mysql_local)cursor = conn.cursor()sql = ('CREATE TABLE IF NOT EXISTS movie(id INT AUTO_INCREMENT PRIMARY KEY,''name VARCHAR(100) ,''alias VARCHAR(100) ,''cate VARCHAR(100) ,''region VARCHAR(100) ,''publish_time DATE,''minute VARCHAR(100),''score VARCHAR(100),''drama TEXT)')    # 文本内容cursor.execute(sql)conn.close()

sql语句创建表具体可见4.4 MySQL存储-CSDN博客

4.2 数据插入表中

使用 insert_movie() 函数插入字典数据，具体解析可见4.4 MySQL存储-CSDN博客

def insert_movie(movie_dict):conn = pymysql.connect(**mysql_local)cursor = conn.cursor()keys = ','.join(movie_dict.keys())values = ','.join(['%s'] * len(movie_dict))sql = f'INSERT INTO movie({keys}) VALUES ({values})'# print(sql)# print(tuple(movie_dict.values()))cursor.execute(sql, tuple(movie_dict.values()))conn.commit()conn.close()

5、总代码与结果

import requests
import pymysql
from mysql_info import mysql_localdef creat_table():conn = pymysql.connect(**mysql_local)cursor = conn.cursor()sql = ('CREATE TABLE IF NOT EXISTS movie(id INT AUTO_INCREMENT PRIMARY KEY,''name VARCHAR(100) ,''alias VARCHAR(100) ,''cate VARCHAR(100) ,''region VARCHAR(100) ,''publish_time DATE,''minute VARCHAR(100),''score VARCHAR(100),''drama TEXT)')cursor.execute(sql)conn.close()def insert_movie(movie_dict):conn = pymysql.connect(**mysql_local)cursor = conn.cursor()keys = ','.join(movie_dict.keys())values = ','.join(['%s'] * len(movie_dict))sql = f'INSERT INTO movie({keys}) VALUES ({values})'# print(sql)# print(tuple(movie_dict.values()))cursor.execute(sql, tuple(movie_dict.values()))conn.commit()conn.close()def crawler(url):response = requests.get(url)content = response.textcontent = eval(content)# id = content['id']name = content['name']alias = content['alias']    # 外文名categories = content['categories']cate = ','.join(categories)regions = content['regions']region = ','.join(regions)publish_time = content['published_at']score = content['score']minute = content['minute']drama = content['drama']# print(name, alias, cate, region, publish_time, score, minute, drama)movie_dict = {# 'id': id,'name': name,'alias': alias,'cate': cate,'region': region,'publish_time':publish_time,'minute': minute,'score': score,'drama': drama}# print(movie_dict)insert_movie(movie_dict)if __name__ == '__main__':creat_table()last = 100for i in range(1, last+1):url = f'https://spa1.scrape.center/api/movie/{i}/'try:crawler(url)except NameError:print(f'链接{url}数据不完整')

mysql数据库部分内容：

本人新手，若有错误，欢迎指正；若有疑问，欢迎讨论。若文章对你有用，点个小赞鼓励一下，谢谢，一起加油吧！

5.2 Ajax 数据爬取实战

目录 1. 实战内容 2、Ajax 分析 3、爬取内容 4、存入MySQL 数据库 4.1 创建相关表 4.2 数据插入表中 5、总代码与结果 1. 实战内容爬取Scrape | Movie的所有电影详情页的电影名、类别、时长、上映地及时间、简介、评分，并将这些内容存入MySQL数据库中。 2、…...

编程日记 2024/2/26 12:26:30

276.【华为OD机试真题】矩阵匹配（二分法—JavaPythonC++JS实现）

🚀点击这里可直接跳转到本专栏，可查阅顶置最新的华为OD机试宝典~ 本专栏所有题目均包含优质解题思路，高质量解题代码(Java&Python&C++&JS分别实现)，详细代码讲解，助你深入学习，深度掌握！文章目录一. 题目-矩阵匹配二.解题思路三.题解代码Python题解代码…...

编程日记 2024/2/26 12:23:28

java——多线程基础

目录线程的概述多线程的创建方式一：继承Thread类方式二：实现Runnable接口方式三：利用Callable接口、FutureTask类来实现。Thread常用的方法线程安全问题线程安全问题概述线程安全问题案例取钱案例描述模拟代码如下：执行结果线程…...

编程日记 2024/2/26 12:22:27

Python服务器监测测试策略与工具：确保应用的高可用性！

在构建高可用性的应用程序时，服务器监测测试是至关重要的一环。Python作为一种强大的编程语言，提供了丰富的工具和库来帮助我们进行服务器监测测试。本文将介绍一些关键的策略和工具，帮助你确保应用的高可用性。 1. 监测策略的制定&#xff…...

编程日记 2024/2/26 12:20:25

Spring Security源码学习

Spring Security本质是一个过滤器链过滤器链本质是责任链设计模型 1. HttpSecurity 【第五篇】深入理解HttpSecurity的设计-腾讯云开发者社区-腾讯云在以前spring security也是采用xml配置的方式，在<http>标签中配置http请求相关的配置，如用户…...

编程日记 2024/2/26 12:17:22

大数据面试总结三

1、hdfs作为分布式存储系统，底层的实现的方式（可能不正确） 1、底层是一个分布式存储的，底层会将数据进行切分多个block块（128M），并存储在不同的节点上面，这种分布式方式有助于提高数…...

编程日记 2024/2/26 12:16:21

AI赚钱套路总结和教程

最近李一舟和Sora 很火，作为第一批使用Sora赚钱的男人，一个清华学美术的跟人讲AI，信的人太多了，钱太好赚了。3年时间，李一舟仅通过卖课就赚了1.75亿元，其中《每个人的人工智能课》收入2786万元，…...

编程日记 2024/2/26 12:15:20

Linux安装jdk、tomcat、MySQL离线安装与启动

一、JDK和Tomcat的安装 1.JDK安装直接上传到Linux服务器的，上传jdk、tomcat安装包解压JDK安装包 //解压jdk tar -zxvf jdk-8u151-linux-x64.tar.gz 置环境变量(JAVA_HOME和PATH) vim /etc/profile 在文件末尾添加以下内容： //java environment expo…...

编程日记 2024/2/26 12:14:19

Python爬虫-使用代理伪装IP

爬虫系列：http://t.csdnimg.cn/WfCSx 前言我们在做爬虫的过程中经常会遇到这样的情况，最初爬虫正常运行，正常抓取数据，一切看起来都是那么的美好，然而一杯茶的功夫可能就会出现错误，比如 403 Forbidden&…...

编程日记 2024/2/26 12:13:18

Typora结合PicGo + 使用Github搭建个人免费图床

文章目录一、国内图床比较二、使用Github搭建图床三、PicGo整合Github图床1、下载并安装PicGo2、设置图床3、整合jsDelivr具体配置介绍 4、测试5、附录四、Typora整合PicGo实现自动上传每次写博客时，我都会习惯在Typora写好，然后再复制粘贴到对应的网…...

编程日记 2024/2/26 12:11:13

【Redis】redis简介与安装

Redis 简介 Redis 是完全开源的，遵守 BSD 协议（Berkeley Software Distribution 意思是"伯克利软件发行版），是一个高性能的 key-value 数据库。具有以下几个比较明显的特点： 性能极高 – Redis能读的速度可以达…...

编程日记 2024/2/26 12:09:09

【xss跨站漏洞】xss漏洞利用工具beef的安装

安装环境阿里云服务器，centos8.2系统，docker docker安装前提用root用户安装docker yum install docker 重启docker systemctl restart docker beef安装安装beef docker pull janes/beef 绑定到3000端口 docker run --rm -p 3000:3000 janes/beef …...

编程日记 2024/2/26 12:08:08

编程笔记 html5cssjs 086 JavaScript 内置对象

编程笔记 html5&css&js 086 JavaScript 内置对象一、Object二、Array三、String四、Number五、Math六、Date七、RegExp八、Function九、示例小结 JavaScript 内置对象是 JavaScript 语言本身定义的一系列预定义的对象，这些对象在全局作用域中可以直接使用&…...

编程日记 2024/2/26 12:06:04

AttributeError: ‘DataFrame‘ object has no attribute ‘set_value‘怎么修改问题的解决

在jupyternotebook中运行： def remplacement_df_keywords(df, dico_remplacement, roots False):df_new df.copy(deep True)for index, row in df_new.iterrows():chaine row[plot_keywords]if pd.isnull(chaine): continuenouvelle_liste []for s in chaine.…...

编程日记 2024/2/26 12:00:57

Jmeter内置变量 vars 和props的使用详解

JMeter是一个功能强大的负载测试工具，它提供了许多有用的内置变量来支持测试过程。其中最常用的变量是 vars 和 props。 vars 变量 vars 变量是线程本地变量，它们只能在同一线程组内的所有线程中使用（线程组内不同线程之间变量不共享&#…...

编程日记 2024/2/26 11:59:55

c#高级-正则表达式

正则表达式是由普通字符和元字符（特殊符号）组成的文字形式应用场景 1.用于验证输入的邮箱是否合法。 2.用于验证输入的电话号码是否合法。 3.用于验证输入的身份证号码是否合法。等等正则表达式常用的限定符总结： 几种常用的正则简写表达式…...

编程日记 2024/2/26 11:57:53

说说UE5中的几种字符串类

在Unreal Engine 5 (UE5) 的C中，与字符串相关的类主要包括： FString： Unreal Engine中用于处理字符串的主要类，提供了丰富的字符串操作方法和功能。 FText： 用于表示本地化文本的类，可以包含多种语言的文本…...

编程日记 2024/2/26 11:56:52

(done) 如何判断一个矩阵是否可逆？

参考视频：https://www.bilibili.com/video/BV15H4y1y737/?spm_id_from333.337.search-card.all.click&vd_source7a1a0bc74158c6993c7355c5490fc600 这个视频里还暗含了一些引理 1.若 AX XB 且 X 和 A,B 同阶可逆，那么 A 和 B 相似。原因&#xff1…...

编程日记 2024/2/26 11:55:50

洗眼镜用的超声波清洗机哪一家更好一点？好用超声波清洗机排名

在我们日常生活中，眼镜、首饰、手表等细小物件的清洁一直是一个让人头疼的问题。传统的清洁方法不仅耗时耗力，还可能因为不当的操作而损伤到这些精细的物品。那么，有没有一种既快捷又安全的清洁方式呢？答案就是使用超声波清洗机。…...

编程日记 2024/2/26 11:54:49

（二十二）Flask之上下文管理第三篇【收尾—讲一讲g】

目录：每篇前言：g到底是什么？生命周期在请求周期内保持数据需要注意的是：拓展—面向对象的私有字段深入讲解一下那句：每篇前言： 🏆🏆作者介绍：【孤寒者】—CSDN全栈领域优质创作者、HDZ核心组成员、华为云享专家Python全栈领域博主、CSDN原力计划作者🔥🔥本文已…...

编程日记 2024/2/26 11:53:47

利用ngx_stream_return_module构建简易 TCP/UDP 响应网关

一、模块概述 ngx_stream_return_module 提供了一个极简的指令： return <value>;在收到客户端连接后，立即将 <value> 写回并关闭连接。<value> 支持内嵌文本和内置变量（如 $time_iso8601、$remote_addr 等）&a…...

编程新知 2025/9/21 0:49:02

前端倒计时误差!

提示：记录工作中遇到的需求及解决办法文章目录前言一、误差从何而来？二、五大解决方案1. 动态校准法（基础版）2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言前几天听说公司某个项…...

编程新知 2025/9/8 23:14:43

循环冗余码校验CRC码算法步骤+详细实例计算

通信过程：（白话解释） 我们将原始待发送的消息称为 M M M，依据发送接收消息双方约定的生成多项式 G ( x ) G(x) G(x)（意思就是 G （ x ) G（x) G（x) 是已知的）&#xff0…...

编程新知 2026/2/8 8:16:14

Linux相关概念和易错知识点（42）（TCP的连接管理、可靠性、面临复杂网络的处理）

目录 1.TCP的连接管理机制（1）三次握手①握手过程②对握手过程的理解 （2）四次挥手（3）握手和挥手的触发（4）状态切换①挥手过程中状态的切换②握手过程中状态的切换 2.TCP的可靠性&…...

编程新知 2026/1/30 0:09:51

【JVM】- 内存结构

引言 JVM：Java Virtual Machine 定义：Java虚拟机，Java二进制字节码的运行环境好处： 一次编写，到处运行自动内存管理，垃圾回收的功能数组下标越界检查（会抛异常，不会覆盖到其他代码…...

编程新知 2026/1/30 13:40:43

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility 1. 实验室环境1.1 实验室环境1.2 小测试 2. The Endor System2.1 部署应用2.2 检查现有策略 3. Cilium 策略实体3.1 创建 allow-all 网络策略3.2 在 Hubble CLI 中验证网络策略源3.3 …...

编程新知 2026/1/26 21:57:45

376. Wiggle Subsequence

376. Wiggle Subsequence 代码 class Solution { public:int wiggleMaxLength(vector<int>& nums) {int n nums.size();int res 1;int prediff 0;int curdiff 0;for(int i 0;i < n-1;i){curdiff nums[i1] - nums[i];if( (prediff > 0 && curdif…...

编程新知 2026/2/8 10:51:38

工程地质软件市场：发展现状、趋势与策略建议

一、引言在工程建设领域，准确把握地质条件是确保项目顺利推进和安全运营的关键。工程地质软件作为处理、分析、模拟和展示工程地质数据的重要工具，正发挥着日益重要的作用。它凭借强大的数据处理能力、三维建模功能、空间分析工具和可视化展示手段&…...

编程新知 2025/10/6 6:10:29

苍穹外卖--缓存菜品

1.问题说明用户端小程序展示的菜品数据都是通过查询数据库获得，如果用户端访问量比较大，数据库访问压力随之增大 2.实现思路通过Redis来缓存菜品数据，减少数据库查询操作。缓存逻辑分析： ①每个分类下的菜品保持一份缓存数据…...

编程新知 2026/2/7 15:39:49

在WSL2的Ubuntu镜像中安装Docker

Docker官网链接: https://docs.docker.com/engine/install/ubuntu/ 1、运行以下命令卸载所有冲突的软件包： for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done2、设置Docker…...

编程新知 2026/2/4 16:23:56

1. 实战内容

2、Ajax 分析

3、爬取内容

4、存入MySQL 数据库

4.1 创建相关表

4.2 数据插入表中

5、总代码与结果

相关文章：