2024年妈杯MathorCup大数据竞赛A题超详细解题思路
2024年妈杯大数据竞赛初赛整体难度约为0.6个国赛。A题为台风中心路径相关问题,为评价+预测问题;B题为库存和销量的预测+优化问题。B题难度稍大于A题,可以根据自己队伍情况进行选择。26日早六点之前发布AB两题相关解题代码+论文。
下面为大家带来详细的A题解题思路【注:该思路为真实求解之前的暂定思路,实际论文代码可能因数据问题、模型问题与思路有一定出入】
作为数据类型题目,本题可以分为四个大部分,分别为数据处理、台风分类评价模型、台风路径预测模型、台风登陆后的风速与降水量预测模型。
数据处理
对于题目给出的数据一共提供了1945年至今1813场台风的相关数据。我们需要对题目给出的数据进行必要的处理。主要包括,缺失值处理、时间处理、数据编码、异常值处理、数据描述性分析。
1、缺失值处理;对于题目存在的大量缺失值,我们可以选择插值填充,也可以选择直接删除所在行。

2、时间处理,对于题目给出的数据格式,直接进行变成计算机无法识别,我们需要根据数据特征六小时间隔转化为YYYYMMDDHH格式,方便进一步进行处理

3、数据编码 对于题目给出的各种数据,存在直接使用汉字或者字母进行编码的结果,需要转化为数据才能进一步建立模型。

4、异常值处理 对于题目中存在的极端数据,例如 高达110的风速 低至50的气压都应该结合实际情况进行分析。

5、数据描述性分析;我们可以对题目给出的路径绘制对应的可视化,进一步进行描述分析

问题 1:台风特征参数与气象因素的关系及分类评价模型
根据题目提供数据,台风特征信息主要为台风强度、台风等级、风速、气压、移动方向、移动速度。首先,可以对台风特征参数进行相关性分析,了解每个指标与台风强度、等级之间的关系。计算特征之间的相关系数(例如使用皮尔逊相关系数),找出与台风强度(风速、气压)高度相关的气象因素。并使用热力图进行可视化展示。根据分析结果进行特征选择。
建立相关的分类模型进行分类即可,可以使用无监督学习方法,例如K-means聚类,对台风进行初步的类别划分。可以根据台风的风速、气压、移动速度等指标对台风进行聚类,分为若干类(如弱台风、中等台风、强台风)。
也可以从历史数据中获取台风类别(例如夏台风、秋台风的标签),可以使用**随机森林(Random Forest)或支持向量机(SVM)**进行分类。使用历史台风数据训练模型,以气温、气压、季风等气象数据作为输入,台风等级或类型作为输出。
问题 2:台风路径预测模型
要求根据多种气象因素(气温、气压、洋流、风场等)预测台风路径,并利用Dynamic Time Warping(DTW)算法与实际路径进行对比。
主要求解思路:使用回归模型或者时空序列模型进行路径预测。例如,考虑使用多元线性回归或者**LSTM(长短期记忆网络)**等适合时间序列预测的深度学习模型。使用**Dynamic Time Warping (DTW)**来度量预测路径与实际路径之间的相似性,DTW可以处理不同长度的时间序列,衡量它们之间的相似性。
具体过程
基于物理机制的数值预测模型
可以使用基于气象动力学的数值天气预报模型,如WRF,通过模拟台风生成的物理过程来进行路径预测。这些模型考虑了大气的物理过程,包括风场、气压梯度、地球自转等,但其计算量较大,操作难度较大,不推荐。
基于数据驱动的机器学习模型
台风路径预测属于典型的时空序列预测问题,深度学习方法中的**长短期记忆网络(LSTM)**和**门控循环单元(GRU)**非常适合这类应用。
LSTM/GRU**通过捕捉历史路径和气象因素的时间依赖性,能够预测台风未来的路径点。
模型输入包括过去的经纬度坐标、气压、风场等特征,输出为未来时间点的经纬度。
通过这种方式,LSTM或GRU可以用于逐步预测台风未来的路径点,从而形成完整的预测路径。这些模型需要大量历史台风数据进行训练,并通过交叉验证来确保模型的泛化能力。
多元函数型数据主成分分析(FPCA)
将台风路径的时间序列数据表示为连续函数,并通过主成分分解提取主要的变化模式,得到路径变化的主要特征。
可以将台风路径数据降维,得到几组主成分得分,这些主成分得分描述了台风路径的主要变化模式,如向北、向西的偏向趋势或路径曲率的变化。
Dynamic Time Warping(DTW)对比分析
将**预测路径**和**实际路径**使用DTW进行对比,计算它们之间的相似度。
问题 3:台风登陆后降水量和风速的关系
问题三要求建立台风在登陆后风速和降水量之间的关系,以及降水量与距台风中心距离之间的关系。我们需要结合物理机制和统计建模的方法,建立一个综合的预测模型,并应用于2024年9月16日至18日第13号台风贝碧嘉的实际情况进行预测与分析。
主要思想为建立 风速与距离、降雨量与距离的两个函数关系
使用历史台风数据拟合模型,计算出各回归系数,进行模型验证确保其泛化能力。
1风速与距离的关系模型
台风登陆后,风速通常呈现出逐渐衰减的趋势。我们可以使用指数衰减模型来描述风速随距离的变化:

相关文章:
2024年妈杯MathorCup大数据竞赛A题超详细解题思路
2024年妈杯大数据竞赛初赛整体难度约为0.6个国赛。A题为台风中心路径相关问题,为评价预测问题;B题为库存和销量的预测优化问题。B题难度稍大于A题,可以根据自己队伍情况进行选择。26日早六点之前发布AB两题相关解题代码论文。 下面为大家带来…...
Kafka系列之:Kafka集群磁盘条带划分和Kafka集群磁盘扩容详细方案
Kafka系列之:Kafka集群磁盘条带划分和Kafka集群磁盘扩容详细方案 一、lsblk命令二、Kafka节点磁盘条带化方案一三、Kafka节点磁盘条带化方案二四、理解逻辑区块LE五、查看kafka节点磁盘条带划分情况六、Kafka节点磁盘扩容一、lsblk命令 lsblk命令用于列出块设备的信息,包括磁…...
【LeetCode】修炼之路-0007- Reverse Integer (整数反转)【python】
题目 Reverse Integer Given a signed 32-bit integer x, return x with its digits reversed. If reversing x causes the value to go outside the signed 32-bit integer range [-231, 231 - 1], then return 0. Assume the environment does not allow you to store 64-b…...
【Flutter】页面布局:线性布局(Row 和 Column)
在 Flutter 中,布局(Layout)是应用开发的核心之一。通过布局组件,开发者可以定义应用中的控件如何在屏幕上排列。Row 和 Column 是 Flutter 中最常用的两种线性布局方式,用于水平和垂直排列子组件。在本教程中…...
C语言巨难题:执行操作可获得的最大总奖励 I(C语言版)
1.题目: 给你一个整数数组 rewardValues,长度为 n,代表奖励的值。 最初,你的总奖励 x 为 0,所有下标都是 未标记 的。你可以执行以下操作 任意次 : 从区间 [0, n - 1] 中选择一个 未标记 的下标 i。如果…...
【力扣】GO解决子序列相关问题
文章目录 一、引言二、动态规划方法论深度提炼子序列问题的通用解法模式 三、通用方法论应用示例:最长递增子序列(LeetCode题目300)Go 语言代码实现 四、最长连续递增序列(LeetCode题目674)Go 语言代码实现 五、最长重…...
Ubuntu20.04安装VM tools并实现主机和虚拟机之间文件夹共享
1、Ubuntu20.04安装VM tools 参考这个,很详细:Ubuntu 20.04 安装 VMwareTools 教程 2、实现主机与VMware虚拟机共享文件夹 设置共享文件夹参考:windows和虚拟机互传文件的三种方式 挂载操作参考:主机与VMware虚拟机共享文件夹&…...
Linux 学习笔记(十七)—— 文件系统
终极目标:理解 inode 和 软硬连接; 文件系统:Ext2; 文件 文件内容 文件属性; ——> 磁盘上存储的文件 存储的文件内容 存储的文件属性; Linux系统中:文件内容使用数据块存储,文件属性使用inode(固定…...
【计算机网络 - 基础问题】每日 3 题(五十八)
✍个人博客:https://blog.csdn.net/Newin2020?typeblog 📣专栏地址:http://t.csdnimg.cn/fYaBd 📚专栏简介:在这个专栏中,我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话,欢迎点赞…...
Netty入门基础:IO模型中BIO\NIO概念及区别【附演示代码】
文章目录 😀BIO💢实战demo 🌈NIO🏍Buffer核心属性核心方法 🎗Channel🎈Selector核心方法 🧨实战demo 🎨粘包与半包 😀BIO 传统IO模型,同步阻塞,每…...
vue2 使用环境变量
一. 在根目录下创建.env.xxx文件 .env 基础系统变量,无论何种环境,都可使用其中配置的值,其他环境中的变量会覆盖.env中的同名变量。 .env.development 开发环境 .env.production 生产环境 .env.staging 测试环境 二. 内容格式 vue2 使用是以…...
数据预处理
继续提取代码片段: 12. **导入iris数据集并查看前5行数据**: python from sklearn.datasets import load_iris iris load_iris() X iris.data print(iris数据集的维度为:, X.shape) print(iris数据集的前5行数据为:\n, X[:5]) …...
django宠物领养管理系统-计算机毕业设计源码26858
目录 1 绪论 1.1 选题背景与意义 1.2国内外研究现状 1.3论文结构与章节安排 2系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据流程 3.3.2 业务流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系统用例分析 2.5本章小结 3 系统总体设计 3…...
使用TeamViewer远程局域网内的两台电脑
有个场景,有人还不知道TV可以局域网操作,记录一下。 主要就是修改设置,将取消激活改为接受 然后输入受控端的ip即可...
GUI简介、Swing的常用组件、java程序的运行过程、class文件、JAR、runable_jar、双括号初始化
GUI简介 GUI:图形用户界面,在计算机中采用图形的方式显示用户界面 java的GUI开发 AWT:java最早推出的GUI编程开发包,界面风格跟随操作系统SWT:eclipse就是java使用SWT开发的Swing:在AWT的基础上扩充了功能…...
@Autowired和@Resource和getBean()区别
今天遇到一个对我来说很奇葩的错误,我想在Service中注入bean,我这里使用了Autowired和Resource都不能注入,导致初始化失败,使用了getBean()方法就可以注入。从来没有遇到过这个问题。后来我查询了一下,才明白了原理。我…...
Merlion笔记(四):添加一个新的预测模型
文章目录 1 模型配置类2 模型类3 运行模型:一个简单的例子4 可视化5 定量评估6 定义一个基于预测器的异常检测器 本文提供了一个示例,展示如何向 Merlion 添加一个新的预测模型,遵循 CONTRIBUTING.md 中的说明。建议在阅读本篇文章之前,先查…...
【论文阅读】ESRGAN
学习资料 论文题目:增强型超分辨率生成对抗网络(ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks)论文地址:[1809.00219] ESRGAN:增强型超分辨率生成对抗网络代码:xinntao / ESRGAN&am…...
电脑异常情况总结
文章目录 笔记本无症状息屏黑屏 笔记本无症状息屏黑屏 🍎 问题描述: 息屏导致黑屏;依次操作计算机--》右键--》管理--》事件查看器--》Windows日志--》系统;从息屏到异常黑屏之间出现了很多错误,如下:事件…...
[项目详解][boost搜索引擎#1] 概述 | 去标签 | 数据清洗 | scp
目录 一、前言 二、项目的相关背景 三、搜索引擎的宏观原理 四、搜索引擎技术栈和项目环境 五、正排索引 VS 倒排索引--原理 正排索引 分词 倒排索引 六、编写数据去除标签和数据清洗模块 Parser 1.数据准备 parser 编码 1.枚举文件 EnumFile 2.去标签ParseHtml(…...
(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)
题目:3442. 奇偶频次间的最大差值 I 思路 :哈希,时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况,哈希表这里用数组即可实现。 C版本: class Solution { public:int maxDifference(string s) {int a[26]…...
大数据学习栈记——Neo4j的安装与使用
本文介绍图数据库Neofj的安装与使用,操作系统:Ubuntu24.04,Neofj版本:2025.04.0。 Apt安装 Neofj可以进行官网安装:Neo4j Deployment Center - Graph Database & Analytics 我这里安装是添加软件源的方法 最新版…...
手游刚开服就被攻击怎么办?如何防御DDoS?
开服初期是手游最脆弱的阶段,极易成为DDoS攻击的目标。一旦遭遇攻击,可能导致服务器瘫痪、玩家流失,甚至造成巨大经济损失。本文为开发者提供一套简洁有效的应急与防御方案,帮助快速应对并构建长期防护体系。 一、遭遇攻击的紧急应…...
iOS 26 携众系统重磅更新,但“苹果智能”仍与国行无缘
美国西海岸的夏天,再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至,这不仅是开发者的盛宴,更是全球数亿苹果用户翘首以盼的科技春晚。今年,苹果依旧为我们带来了全家桶式的系统更新,包括 iOS 26、iPadOS 26…...
利用ngx_stream_return_module构建简易 TCP/UDP 响应网关
一、模块概述 ngx_stream_return_module 提供了一个极简的指令: return <value>;在收到客户端连接后,立即将 <value> 写回并关闭连接。<value> 支持内嵌文本和内置变量(如 $time_iso8601、$remote_addr 等)&a…...
vscode(仍待补充)
写于2025 6.9 主包将加入vscode这个更权威的圈子 vscode的基本使用 侧边栏 vscode还能连接ssh? debug时使用的launch文件 1.task.json {"tasks": [{"type": "cppbuild","label": "C/C: gcc.exe 生成活动文件"…...
Vue2 第一节_Vue2上手_插值表达式{{}}_访问数据和修改数据_Vue开发者工具
文章目录 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染2. 插值表达式{{}}3. 访问数据和修改数据4. vue响应式5. Vue开发者工具--方便调试 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染 准备容器引包创建Vue实例 new Vue()指定配置项 ->渲染数据 准备一个容器,例如: …...
Psychopy音频的使用
Psychopy音频的使用 本文主要解决以下问题: 指定音频引擎与设备;播放音频文件 本文所使用的环境: Python3.10 numpy2.2.6 psychopy2025.1.1 psychtoolbox3.0.19.14 一、音频配置 Psychopy文档链接为Sound - for audio playback — Psy…...
【Zephyr 系列 10】实战项目:打造一个蓝牙传感器终端 + 网关系统(完整架构与全栈实现)
🧠关键词:Zephyr、BLE、终端、网关、广播、连接、传感器、数据采集、低功耗、系统集成 📌目标读者:希望基于 Zephyr 构建 BLE 系统架构、实现终端与网关协作、具备产品交付能力的开发者 📊篇幅字数:约 5200 字 ✨ 项目总览 在物联网实际项目中,**“终端 + 网关”**是…...
SpringTask-03.入门案例
一.入门案例 启动类: package com.sky;import lombok.extern.slf4j.Slf4j; import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication; import org.springframework.cache.annotation.EnableCach…...
