当前位置：首页 > news >正文

paddlenlp:社交网络中多模态虚假媒体内容核查（特征篇）

news 文章来源：https://blog.csdn.net/dylan_me/article/details/132171948 2025/4/27 2:24:14

初赛之特征构造

写在前面
一、安装paddleOCR
二、代码部分
三、模型优缺点
四、写在最后

写在前面

通过前面两篇文章的介绍，我们可以大致的知道模型用到的特征分为四块：qCap，qImg，captions，imgs。根据这些特征，我们得到的模型效果在0.7左右。是否能加入更多的特征，进一步提升模型的效果呢？

通过数据分析，我们发现了部分图片中存在文字且具有判断文本类别的作用。所以，本文采用paddleocr模型来提取图像中的文字特征。

一、安装paddleOCR

在安装paddleOCR前，需要安装依赖组件Shapely

pip install Shapely

接下来，就可以安装paddleOCR了，也是一行代码就完成安装

pip install --user paddleocr -i https://mirror.baidu.com/pypi/simple

接下来我们就可以进行测试了

from paddleocr import PaddleOCR
import os
os.environ['KMP_DUPLICATE_LIB_OK']='TRUE'captions_list = []
# Paddleocr目前支持中英文、英文、法语、德语、韩语、日语，可以通过修改lang参数进行切换
# 参数依次为`ch`, `en`, `french`, `german`, `korean`, `japan`。
ocr = PaddleOCR(use_angle_cls=True, lang="ch")  # need to run only once to download and load model into memory
caption = []
img_path = '0.jpg'
result = ocr.ocr(img_path, cls=True)
for idx in range(len(result)):res = result[idx]print(res)for line in res:if line[1][1]>0.9:   # line[1][1]是提取文本的置信度print(line[1][0])   # line[1][0]是提取文本# 显示结果
from PIL import Image
result = result[0]
image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='/path/to/PaddleOCR/doc/fonts/simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')

测试结果如下
请添加图片描述
可以发现，识别效果还是不错的。

paddleOCR以ppocr轻量级模型作为默认模型，如果你想尝试更多，可以参考以下链接的第3节自定义模型进行自定义更换。
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/doc/doc_ch/whl.md

二、代码部分

运行该部分代码，可以得到train、test、val各个img文件夹中图片中的文字，一行文字代表一张图片。

#读取数据
import json
from paddleocr import PaddleOCR
import os
os.environ['KMP_DUPLICATE_LIB_OK']='TRUE'data_items_train = json.load(open("queries_dataset_merge/dataset_items_train.json",'r',encoding='UTF8'))
data_items_val = json.load(open("queries_dataset_merge/dataset_items_val.json",'r',encoding='UTF8'))
data_items_test = json.load(open("queries_dataset_merge/dataset_items_test.json",'r',encoding='UTF8'))# 写入txt文件
def load_ocr_captions(context_data_items_dict,queries_root_dir,split):if split == 'train':fname = 'ocr/ocr_qimg_train.txt'if split == 'val':fname = 'ocr/ocr_qimg_val.txt'if split == 'test':fname = 'ocr/ocr_qimg_test.txt'# image_path = os.path.join(queries_root_dir,fname)# Paddleocr目前支持中英文、英文、法语、德语、韩语、日语，可以通过修改lang参数进行切换# 参数依次为`ch`, `en`, `french`, `german`, `korean`, `japan`。with open(fname, 'w', encoding="UTF8") as f:for key in range(len(context_data_items_dict)):print(key)captions_list = []image_path = os.path.join(queries_root_dir, context_data_items_dict[str(key)]['image_path'])ocr = PaddleOCR(use_angle_cls=True, lang="ch",show_log=False)  # need to run only once to download and load model into memoryresult = ocr.ocr(image_path, cls=True)for idx in range(len(result)):res = result[idx]for line in res:if line[1][1] >= 0.8:  # 置信度captions_list.append(line[1][0])captions = ",".join(captions_list)f.write(captions+'\n')#### load Datasets ####
train_dump_ocr_captions= load_ocr_captions(data_items_train, 'queries_dataset_merge','train')
val_dump_ocr_captions = load_ocr_captions(data_items_val,'queries_dataset_merge','val')
test_dump_ocr_captions = load_ocr_captions(data_items_test,'queries_dataset_merge','test')

三、模型优缺点

优点是模型识别的准确率较高，缺点是模型不能多线程跑，读完整个数据集耗时1day。建议在入模前就通过ocr采集存储每个图片的文字，后续调用，直接通过图片id匹配即可。

四、写在最后

文本主要展现用什么方法来做数据特征加工，对baseline改动的代码就不贴了，想要的uu们可以私信我。

本次记录主要还是以学习为主，抽了工作之余来进行OCR特征加工。探索了一个带大家最快上手的路径，降低大家的入门难度。

看完觉得有用的话，记得点个赞，不做白嫖党~

paddlenlp:社交网络中多模态虚假媒体内容核查（特征篇）

初赛之特征构造写在前面一、安装paddleOCR二、代码部分三、模型优缺点四、写在最后写在前面通过前面两篇文章的介绍，我们可以大致的知道模型用到的特征分为四块：qCap，qImg，captions，imgs。根据这些特征&#xff0c…...

编程日记 2023/10/17 6:57:10

【网络】总览（待更新）

网络Ⅰ 零、概述0. 网络协议1. 网络协议分层OSI 七层模型TCP/IP 五层模型 2. 协议报头3. 通信过程一、应用层1.1 🔗HTTP 协议1.2 🔗HTTPS 协议二、传输层2.1 端口号2.2 netstat - - 查询网络状态2.3 pidof - - 查看服务器的进程 id2.4 🔗UD…...

编程日记 2023/10/17 6:56:10

策略模式——多重if-else解决方案

概念大量的 if 判断操作，逻辑比较复杂，并且处理起来相对麻烦。可以采用策略模式来优化分支代码。策略模式 💤：是一种行为设计模式，它允许你在运行时根据不同情况选择不同的算法或行为。设计模式 🤌&…...

编程日记 2023/10/17 6:55:09

CTAmap 1.12版本2013年-2023年省市县矢量数据更新

中国行政区划数据CTAmap 1.12版本更新从2022年起，笔者开始整理长时间序列的中国行政区划数据，通过以国家基础地理信息矢量数据为基础，以高德、民政部、gadm、乡镇界、村界、各省标准地图等区划矢量数据和相关行政区划变更文字资料为参考&am…...

编程日记 2023/10/17 6:54:07

【Linux初阶】多线程3 | 线程同步，生产消费者模型（普通版、BlockingQueue版）

文章目录 ☀️一、线程同步🌻1.条件变量🌻2.同步概念与竞态条件🌻3.条件变量函数🌻4.条件变量使用规范🌻5.代码案例 ☀️二、生产者消费者模型🌻1.为何要使用生产者消费者模型🌻2.生产者消费者模…...

编程日记 2023/10/17 6:53:06

JUC并发编程——四大函数式接口（基于狂神说的学习笔记）

四大函数式接口函数式接口：只有一个方法的接口 ，例如：Runnable接口 Function 函数型接口，有一个输入参数，有一个输出源码： /*** Represents a function that accepts one argument and produces a resul…...

编程日记 2023/10/17 6:52:05

【2】c++11新特性（稳定性和兼容性）—＞超长整型 long long

c11标准要求long long整型可以在不同的平台上有不同的长度，但是至少64位，long long整型有两种： 有符号long long：–对应类型的数值可以使用LL或者ll后缀 long long num1 123456789LL; long long num2 123456789ll;无符号unsign…...

编程日记 2023/10/17 6:51:03

AI算法检测对无人军用车辆的MitM攻击

南澳大利亚大学和查尔斯特大学的教授开发了一种算法来检测和拦截对无人军事机器人的中间人（MitM）攻击。 MitM 攻击是一种网络攻击，其中两方（在本例中为机器人及其合法控制器）之间的数据流量被拦截，以窃听或…...

编程日记 2023/10/17 6:50:02

运维 | 如何在 Linux 系统中删除软链接 | Linux

运维 | 如何在 Linux 系统中删除软链接 | Linux 介绍在 Linux 中，符号链接（symbolic link，或者symlink）也称为软链接，是一种特殊类型的文件，用作指向另一个文件的快捷方式。使用方法我们可以使用 ln…...

编程日记 2023/10/17 6:49:01

Jmeter接口测试：jmeter导入和导出接口的处理

JMeter测试导入接口利用Jmeter测试上传文件，首先可根据接口文档或者fiddler抓包分析文件上传的接口；如下图： 以下是我通过fiddler所截取的文件上传的接口 1、填写导入接口的信息查看文件上传栏下的填写信息： 文件名称&#x…...

编程日记 2023/10/17 6:48:01

一文了解 Go fmt 标准库的常用占位符及其简单使用

今天分享的内容是 Go fmt 标准库的常用占位符及其简单使用。如果本文对你有帮助，不妨点个赞，如果你是 Go 语言初学者，不妨点个关注，一起成长一起进步，如果本文有错误的地方，欢迎指出占位符通过占位符&a…...

编程日记 2023/10/17 6:46:59

Linux命令(94)之history

linux命令之history 1.history介绍 linux命令history会记录并显示用户所执行过的所有命令，也可以对其命令进行修改和删除操作。 2.history用法 history [参数] history参数参数说明-a将当前会话的历史信息追加到历史文件(.bash_history)中-c删除所有条目从而清…...

编程日记 2023/10/17 6:45:58

Prompt 驱动架构设计：探索复杂 AIGC 应用的设计之道？

你是否曾经想过，当你在 Intellij IDEA 中输入一个段代码时，GitHub 是如何给你返回相关的结果的？其实，这背后的秘密就是围绕 Prompt 生成而构建的架构设计。 Prompt 是一个输入的文本段落或短语，用于引导 AI 生成模型执…...

编程日记 2023/10/17 6:44:58

【代码随想录】算法训练营第三天第二章链表 Part 1

目录链表基础链表的定义 203. 移除链表元素题目思路代码直接删除法虚拟头结点辅助法 707. 设计链表题目思路代码 206. 反转链表题目思路代码双指针法递归法链表基础链表是一种通过指针串在一起的线性结构，每个节点都由数据域和指…...

编程日记 2023/10/17 6:43:57

winform开发经验（1）——调用Invoke更新UI时程序卡死原因以及解决办法

1、问题代码如下： private void Form1_Load(object sender, EventArgs e){this.Invoke(new Action(()...

编程日记 2023/10/17 6:42:56

JNI 的数据类型以及和Java层之间的数据转换

JNI的数据类型和类型签名数据类型 JNI的数据类型包含两种：基本类型和引用类型。基本类型主要有jboolean、jchar、jint等，它们和Java中的数据类型的对应关系如下表所示。 JNI中的引用类型主要有类、对象和数组，它们和Java中的引用类型的对…...

编程日记 2023/10/17 6:41:54

EFLK与logstash过滤

目录一、Filebeat工作原理： 二、为什么要使用Filebeat： 三、Filebeat和Logstash的区别： 四、logstash 的过滤插件： 五、FilebeatELK 部署： 1. 安装filebeat： 2. 设置 filebeat 的主配置文件&#xff1…...

编程日记 2023/10/17 6:40:53

mkdir jenkins_home chown -R 1000:1000 /root/jenkins_home/docker run -d --name myjenkins -v /root/jenkins_home:/var/jenkins_home -p 8080:8080 -p 50000:50000 --restarton-failure jenkins/jenkins:lts-jdk17参考 Official Jenkins Docker imageDocker 搭建 Jenkins …...

编程日记 2023/10/17 6:39:52

paddlenlp:社交网络中多模态虚假媒体内容核查（特征篇）

初赛之特征构造

写在前面

一、安装paddleOCR

二、代码部分

三、模型优缺点

四、写在最后

相关文章：

paddlenlp:社交网络中多模态虚假媒体内容核查（特征篇）

【网络】总览（待更新）

策略模式——多重if-else解决方案

CTAmap 1.12版本2013年-2023年省市县矢量数据更新

【Linux初阶】多线程3 | 线程同步，生产消费者模型（普通版、BlockingQueue版）

JUC并发编程——四大函数式接口（基于狂神说的学习笔记）

【2】c++11新特性（稳定性和兼容性）—＞超长整型 long long

AI算法检测对无人军用车辆的MitM攻击

运维 | 如何在 Linux 系统中删除软链接 | Linux

Jmeter接口测试：jmeter导入和导出接口的处理

一文了解 Go fmt 标准库的常用占位符及其简单使用

Linux命令(94)之history

Prompt 驱动架构设计：探索复杂 AIGC 应用的设计之道？

【代码随想录】算法训练营第三天第二章链表 Part 1

winform开发经验（1）——调用Invoke更新UI时程序卡死原因以及解决办法

JNI 的数据类型以及和Java层之间的数据转换

EFLK与logstash过滤

docker jenkins

单例模式之「双重校验锁」

2023年中国商业版服务器操作系统市场发展规模分析：未来将保持稳定增长[图]

BIM如何通过3D开发工具HOOPS实现WEB轻量化？

Unity 3D基础——通过四元数控制对象旋转

python--短路运算，把0、空字符串和None看成 False，其他数值和非空字符串都看成 True

《算法通关村第一关——链表青铜挑战笔记》

【深度学习实验】循环神经网络（四）：基于 LSTM 的语言模型训练

IOS课程笔记[1-3] 第一个IOS应用

Flink的基于两阶段提交协议的事务数据汇实现

树模型（三）决策树

vueday01——使用属性绑定+ref属性定位获取id

LeetCode 260. 只出现一次的数字 III：异或