当前位置：首页 > news >正文

2024年泰迪杯数据挖掘B题详细思路代码文章教程

news 2026/2/8 21:05:22

目前b题已全部更新包含详细的代码模型和文章，本文也给出了结果展示和使用模型说明。

同时文章最下方包含详细的视频教学获取方式，手把手保姆级，模型高精度，结果有保障！

分析：
本题待解决问题

目标：利用提供的数据集，通过特征提取和多模态特征融合模型建立，实现图像与文本间的互检索。

具体任务：

基于图像检索的文本：利用提供的文本信息，对图像进行检索，输出相似度较高的前五张图像。

基于文本检索的图像：利用提供的图像ID，对文本进行检索，输出相似度较高的前五条文本。

数据集和任务要求

附件1：包含五万张图像和对应的文本信息。

附件2和附件3：分别提供了任务1和任务2的数据信息，包括测试集文本、图像ID和图像数据库。

附件4：提供了任务结果的模板文件。

评价标准

使用**召回率Recall at K（R@K）**作为评价指标，即查询结果中真实结果排序在前K的比率，本赛题设定K=5，即评价标准为R@5。

步骤一：构建图文检索模型

采用图文检索领域已经封装好的模型：多模态图文互检模型

基于本题附件一所给的数据进行调优

可以给大家展示以下我们模型的效果，和那种一两天做出来的效果完全不一样，我们的模型效果和两个任务的预测情况完整是准确且符合逻辑的。

在这里插入图片描述

任务一结果展示：

在这里插入图片描述

任务二结果展示：

在这里插入图片描述

步骤二：基于图像检索文本

1.数据预处理和特征提取

文本数据预处理：

清洗文本：去除文本中的停用词、标点符号等无关信息。

文本向量化：利用NLP技术（如Word2Vec, GloVe, BERT等）将文本转换为数值向量，以便进行计算和比较。

在这里插入图片描述

import jieba
import pandas as pd
from collections import Counter
#读取CSV文件
image_word_data = pd.read_csv('附件1/ImageWordData.csv')
#加载自定义的停用词表（如果有的话），或使用jieba内置的停用词表
#例如: stop_words = set(open('path_to_stop_words.txt').read().strip().split('\n'))
stop_words = set() # 假设暂时没有自定义的停用词表
#文本预处理函数
def preprocess_text(captions):
preprocessed_captions = []
for caption in captions:
# 使用jieba进行分词
tokens = jieba.lcut(caption)
# 去除停用词
tokens = [token for token in tokens if token not in stop_words and len(token) > 1]
# 将处理过的词加入结果列表
preprocessed_captions.append(" ".join(tokens))
return preprocessed_captions
#对caption列进行预处理
preprocessed_captions = preprocess_text(image_word_data['caption'])
#查看处理过的一些示例文本
for i in range(5):
print(preprocessed_captions[i])
#（可选）统计词频
word_counts = Counter(" ".join(preprocessed_captions).split())
print(word_counts.most_common(10))

图像数据预处理：

图像标准化：将所有图像调整到相同的大小和色彩空间。

特征提取：使用深度学习模型（如CNN, ResNet, VGG等）从图像中提取特征向量。

在这里插入图片描述

image_word_data = pd.read_csv('附件1/ImageWordData.csv')
#图像预处理函数
def preprocess_images(image_folder, image_ids, target_size=(224, 224)):
processed_images = {}
for image_id in image_ids:
image_path = os.path.join(image_folder, image_id)
try:
# 打开图像文件
with Image.open(image_path) as img:
# 调整图像尺寸
img = img.resize(target_size)
# 将图像转换为数组
img_array = np.array(img)# 对图像数组进行归一化
img_array = img_array / 255.0
processed_images[image_id] = img_array
except IOError as e:
print(f"无法打开或找到图像 {image_path}。错误信息: {e}")
processed_images[image_id] = None
return processed_images
#假设图像位于"附件1/ImageData"文件夹中
image_folder_path = '附件1/ImageData'
processed_images = preprocess_images(image_folder_path, image_word_data['image_id'])
#检查处理过的图像数量和某个示例图像数组的形状
print(f"处理过的图像数量: {len(processed_images)}")
if processed_images:
example_image = list(processed_images.values())[0]
if example_image is not None:
print(f"示例图像数组形状: {example_image.shape}")

2.多模态特征融合

由于文本和图像特征位于不同的特征空间，我们需要采取方法将它们映射到同一个空间，以便进行相似度比较。这可以通过以下方法之一实现：

联合嵌入空间：通过训练一个深度学习模型来同时学习文本和图像的嵌入，使得相似的图像和文本对靠近。

交叉模态匹配网络：设计一个网络，它可以接受一种模态的输入，并预测另一种模态的特征表示。

文本特征提取：

from sklearn.feature_extraction.text import TfidfVectorizer
#初始化TF-IDF向量化器
vectorizer = TfidfVectorizer(max_features=1000) # 使用最多1000个词语的词汇量
#将文本数据转换为TF-IDF特征矩阵
tfidf_matrix = vectorizer.fit_transform(preprocessed_captions)
#查看TF-IDF特征矩阵的形状
print(tfidf_matrix.shape)

图像特征提取：

import torch
from torchvision import models, transforms
from PIL import Image
import os
#图像预处理函数
def preprocess_image(img_path):
# 读取图像，转换为RGB（如果是灰度图像）
img = Image.open(img_path).convert('RGB')
# 转换图像
img_t = preprocess(img)
batch_t = torch.unsqueeze(img_t, 0)
return batch_t
#定义预处理流程，确保模型接收三通道的图像
preprocess = transforms.Compose([
transforms.Resize(256),
transforms.CenterCrop(224),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])
#你可以在这里选择较小的模型来减少内存使用
#比如使用 ResNet18
model = models.resnet18(pretrained=True)
model.eval() # 设置为评估模式
#修改图像特征提取部分，使用上面定义的preprocess_image函数
def extract_image_features(image_folder, image_ids):
image_features = {}
for image_id in image_ids:
image_path = os.path.join(image_folder, image_id)
try:
batch_t = preprocess_image(image_path)
#batch_t = batch_t.to(device)
with torch.no_grad():
features = model(batch_t)
image_features[image_id] = features.cpu().numpy().flatten()
except Exception as e:
print(f"无法处理图像 {image_path}: {e}")
image_features[image_id] = None
return image_features
#假设图像位于"附件1/ImageData"文件夹中
image_folder_path = '附件1/ImageData'
#调用函数提取特征
image_features = extract_image_features(image_folder_path, image_word_data['image_id'])

特征融合：

#转换图像特征字典为矩阵
image_features_matrix = np.array([features for features in image_features.values() if features is not None])
#特征融合
#这里我们简单地将归一化的图像特征和TF-IDF特征进行连接
#确保TF-IDF特征矩阵是稠密的
tfidf_features_dense = tfidf_matrix.todense()
multimodal_features = np.concatenate((image_features_matrix, tfidf_features_dense), axis=1)
#现在 multimodal_features 矩阵包含了每个样本的融合特征

3.图文检索

根据训练好的模型进行图文检索匹配

检索和排序：根据计算出的相似度，对数据库中的图像进行排序，选出相似度最高的前五张图像。

结果展示：

在这里插入图片描述

步骤三：基于文本检索图像

与步骤三类似，这里直接展示结果。

在这里插入图片描述

下面内容打开内含详细的视频教学，手把手保姆级，模型高精度，结果有保障！

【腾讯文档】2024泰迪杯数据挖掘助攻合集docs.qq.com/doc/DVVlhb2xmbUFEQUJL

2024年泰迪杯数据挖掘B题详细思路代码文章教程

目前b题已全部更新包含详细的代码模型和文章，本文也给出了结果展示和使用模型说明。同时文章最下方包含详细的视频教学获取方式，手把手保姆级，模型高精度，结果有保障！ 分析： 本题待解决问题目标&#…...

编程日记 2024/4/4 16:39:18

练习 21 Web [GXYCTF2019]BabySQli

SQL联合查询，注意有源码看源码，Base64以及32的区别，MD5碰撞打开后有登录框，先随意登录尝试只有输入admin才是返回wrong pass！ 其他返回wrong user 所以用户名字段一定要输入admin 养成好习惯，先查看源码…...

编程日记 2024/4/4 16:38:17

【并发编程】CountDownLatch

📝个人主页：五敷有你 🔥系列专栏：并发编程 ⛺️稳中求进，晒太阳 CountDownLatch 概念 CountDownLatch可以使一个获多个线程等待其他线程各自执行完毕后再执行。 CountDownLatch 定义了一个计数器，…...

编程日记 2024/4/4 16:37:16

2024-HW ---＞SSRF

这不是马上准备就要护网了嘛，如火如荼的报名ing！！！那么小编就来查缺补漏一下以前的web漏洞，也顺便去收录一波poc！！！！ 今天讲的主人公呢就是SSRF，以前学的时候…...

编程日记 2024/4/4 16:35:14

该主机与 Cloudera Manager Server 失去联系的时间过长。该主机未与 Host Monitor 建立联系

该主机与 Cloudera Manager Server 失去联系的时间过长。该主机未与 Host Monitor 建立联系这个去集群主机cm界面上看会出现这个错误排查思路： 一般比较常见的原因可能是出问题的主机和集群主节点的时间对应不上了。还有就是cm agent服务出现问题了去该主机的…...

编程日记 2024/4/4 16:33:13

报错内容： 类型一 # git clone https://github.com/pytorch/vision.git Cloning into vision... /usr/libexec/git-core/git-remote-https: symbol lookup error: /usr/lib64/libldap.so.2: undefined symbol: EVP_md2, version OPENSSL_1_1_0类型二 # yum reins…...

编程日记 2024/4/4 16:28:08

Ubuntu pycharm配置Conda环境

参考博客：https://blog.csdn.net/qq_40726937/article/details/105323965 https://juejin.cn/post/7229543139950051388 Ubuntu20.04中搭建虚拟环境并且用pycharm调用Ubuntu中的虚拟环境。_ubuntu pycharm的虚拟环境选哪个-CSDN博客...

编程日记 2024/4/4 16:26:07

工作体验记录

文章目录如何提高说话能力？如何提高行动力？如何完成一个任务产出成果?如何寻找突破点提高解决问题的效率？如何成为技术领导？参考资料如何提高说话能力？ 三思而后说，想清楚问题描述，抓住重点…...

编程日记 2024/4/4 16:25:05

YOLO火灾烟雾检测数据集：20000多张，yolo标注完整

YOLO火灾烟雾检测数据集：一共20859张图像，yolo标注完整，部分图像应用增强适用于CV项目，毕设，科研，实验等需要此数据集或其他任何数据集请私信...

编程日记 2024/4/4 16:21:01

基于Spring Boot的餐厅点餐系统

基于Spring Boot的餐厅点餐系统开发语言：Java框架：springbootJDK版本：JDK1.8数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包：Maven3.3.9 部分系统展示管理员登录界面用户注册登录界面 …...

编程日记 2024/4/4 16:16:58

tkinter控件教程使用说明（三）

这篇tkinter控件使用教程是最后一一、TreeView 属性/事件描述代码实例columns列名，用于设置树形视图的列tree["columns"] ("姓名", "年龄", "性别")column列的属性，包括列名、宽度等tree.column("姓名…...

编程日记 2024/4/4 16:15:57

Electron 打包自定义NSIS脚本为安装向导增加自定义页面增加输入框

Electron 打包工具有很多，如Electron-build、 Electron Forge 等，这里使用Electron-build，而Electron-build使用了nsis组件来创建安装向导，默认情况nsis安装向导不能自定义安装向导界面，但是nsis提供了nsis脚本可以扩展…...

编程日记 2024/4/4 16:11:53

Idea2023创建Servlet项目

① Java EE 只是一个抽象的规范，具体实现称为应用服务器。 ② Java EE 只需要两个包 jsp-api.jar 和 servlet-api.jar，而这两个包是没有官方版本的。也就是说，Java 没有提供这两个包，只提供了一个规范。那么这两个包是谁提供的…...

编程日记 2024/4/4 16:10:52

Day57：WEB攻防-SSRF服务端请求Gopher伪协议无回显利用黑白盒挖掘业务功能点

目录 SSRF-原理&挖掘&利用&修复 SSRF无回显解决办法 SSRF漏洞挖掘 SSRF协议利用 http:// （常用） file:/// （常用） dict:// （常用） sftp:// ldap:// tftp:// gopher:// （…...

编程日记 2024/4/4 16:09:51

【Qt】使用Qt实现Web服务器（十）：前端基础

1、简述本人对HTML元素不熟悉，利用QtWebApp加载静态页面来熟悉下HTML元素。 2、测试代码 # a）main中创建 HttpListener new HttpListener(listenerSettings,new RequestMapper(&app),&app);#...

编程日记 2024/4/4 16:08:50

使用vuepress搭建个人的博客(一):基础构建

前言 vuepress是一个构建静态资源网站的库地址:VuePress 一般来说,这个框架非常适合构建个人技术博客,你只需要把自己写好的markdown文档准备好,完成对应的配置就可以了搭建初始化和引入创建文件夹press-blog npm初始化 npm init 引入包 npm install -D vuepress…...

编程日记 2024/4/4 16:07:49

ArcGIS Pro导出布局时去除在线地图水印

目录一、背景二、解决方法一、背景在ArcGIS Pro中经常会用到软件自带的在线地图，但是在导出布局时，图片右下方会自带地图的水印二、解决方法解决方法：添加动态文本--服务图层制作者名单，然后在布局中选定位置添加在状…...

编程日记 2024/4/4 16:05:47

启动mysql

删除C:\Program Files (x86)\MySQL\MySQL Server 5.7这个路径下的data文件夹，这个很难删除，因为一开机，mysql的某些服务就启动了，每次重新启动mysql之前，都要删除这个文件夹因为这个文件夹在后端执行一些我们看不到的…...

编程日记 2024/4/4 16:02:44

C++实现二叉搜索树的增删查改（非递归玩法）

文章目录一、二叉搜索树的概念结构和时间复杂度二、二叉搜索树的插入三、二叉搜索树的查找四、二叉搜索树的删除（最麻烦，情况最多，一一分析）3.1首先我们按照一般情况下写，不考虑特殊情况下4.1.1左为空的情况&#xff…...

编程日记 2024/4/4 15:54:39

软件架构复用

1.软件架构复用的定义及分类软件产品线是指一组软件密集型系统，它们共享一个公共的、可管理的特性集，满足某个特定市场或任务的具体需要，是以规定的方式用公共的核心资产集成开发出来的。即围绕核心资产库进行管理、复用、集成新的系统。核心…...

编程日记 2024/4/4 15:51:36

java 实现excel文件转pdf | 无水印 | 无限制

文章目录目录文章目录前言 1.项目远程仓库配置 2.pom文件引入相关依赖 3.代码破解二、Excel转PDF 1.代码实现 2.Aspose.License.xml 授权文件总结前言 java处理excel转pdf一直没找到什么好用的免费jar包工具，自己手写的难度，恐怕高级程序员花费一年的事件，也…...

编程新知 2025/11/5 4:10:42

Opencv中的addweighted函数

一.addweighted函数作用 addweighted（）是OpenCV库中用于图像处理的函数，主要功能是将两个输入图像（尺寸和类型相同）按照指定的权重进行加权叠加（图像融合），并添加一个标量值&#x…...

编程新知 2026/2/1 1:50:03

STM32F4基本定时器使用和原理详解

STM32F4基本定时器使用和原理详解前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...

编程新知 2026/1/26 21:56:38

服务器硬防的应用场景都有哪些？

服务器硬防是指一种通过硬件设备层面的安全措施来防御服务器系统受到网络攻击的方式，避免服务器受到各种恶意攻击和网络威胁，那么，服务器硬防通常都会应用在哪些场景当中呢？ 硬防服务器中一般会配备入侵检测系统和预防系统&#x…...

编程新知 2025/11/9 19:17:07

【ROS】Nav2源码之nav2_behavior_tree-行为树节点列表

1、行为树节点分类在 Nav2（Navigation2）的行为树框架中，行为树节点插件按照功能分为 Action（动作节点）、Condition（条件节点）、Control（控制节点）和 Decorator（装饰节点）四类。 1.1 动作节点 Action 执行具体的机器人操作或任务，直接与硬件、传感器或外部系统…...

编程新知 2026/2/7 8:45:41

【git】把本地更改提交远程新分支feature_g

创建并切换新分支 git checkout -b feature_g 添加并提交更改 git add . git commit -m “实现图片上传功能” 推送到远程 git push -u origin feature_g...

编程新知 2025/12/13 4:20:30

【电力电子】基于STM32F103C8T6单片机双极性SPWM逆变（硬件篇）

本项目是基于 STM32F103C8T6 微控制器的 SPWM（正弦脉宽调制）电源模块，能够生成可调频率和幅值的正弦波交流电源输出。该项目适用于逆变器、UPS电源、变频器等应用场景。供电电源输入电压采集上图为本设计的电源电路，图中 D1 为二极管，其目的是防止正负极电源反接， …...

编程新知 2026/1/25 3:29:22

python爬虫——气象数据爬取

一、导入库与全局配置 python 运行 import json import datetime import time import requests from sqlalchemy import create_engine import csv import pandas as pd作用： 引入数据解析、网络请求、时间处理、数据库操作等所需库。requests：发送 …...

编程新知 2025/12/16 7:53:39

OCR MLLM Evaluation

为什么需要评测体系？——背景与矛盾能干的事： 看清楚发票、身份证上的字（准确率>90%），速度飞快（眨眼间完成）。干不了的事： 碰到复杂表格（合并单元…...

编程新知 2025/10/6 15:50:41

土建施工员考试：建筑施工技术重点知识有哪些？

《管理实务》是土建施工员考试中侧重实操应用与管理能力的科目，核心考查施工组织、质量安全、进度成本等现场管理要点。以下是结合考试大纲与高频考点整理的重点内容，附学习方向和应试技巧： 一、施工组织与进度管理核心目标： 规…...

编程新知 2025/9/12 3:11:17

2024年泰迪杯数据挖掘B题详细思路代码文章教程

任务一结果展示：

任务二结果展示：

相关文章：

2024年泰迪杯数据挖掘B题详细思路代码文章教程

练习 21 Web [GXYCTF2019]BabySQli

【并发编程】CountDownLatch

2024-HW ---＞SSRF

该主机与 Cloudera Manager Server 失去联系的时间过长。该主机未与 Host Monitor 建立联系

【BUG】No module named ‘dnf‘

Ubuntu pycharm配置Conda环境

工作体验记录

YOLO火灾烟雾检测数据集：20000多张，yolo标注完整

基于Spring Boot的餐厅点餐系统

tkinter控件教程使用说明（三）

Electron 打包自定义NSIS脚本为安装向导增加自定义页面增加输入框

Idea2023创建Servlet项目

Day57：WEB攻防-SSRF服务端请求Gopher伪协议无回显利用黑白盒挖掘业务功能点

【Qt】使用Qt实现Web服务器（十）：前端基础

使用vuepress搭建个人的博客(一):基础构建

ArcGIS Pro导出布局时去除在线地图水印

启动mysql

C++实现二叉搜索树的增删查改（非递归玩法）

软件架构复用

java 实现excel文件转pdf | 无水印 | 无限制

Opencv中的addweighted函数

STM32F4基本定时器使用和原理详解

服务器硬防的应用场景都有哪些？

【ROS】Nav2源码之nav2_behavior_tree-行为树节点列表

【git】把本地更改提交远程新分支feature_g

【电力电子】基于STM32F103C8T6单片机双极性SPWM逆变（硬件篇）

python爬虫——气象数据爬取

OCR MLLM Evaluation

土建施工员考试：建筑施工技术重点知识有哪些？