AI论文速读 | UniST:提示赋能通用模型用于城市时空预测
本文是时空领域的统一模型——UniST,无独有偶,时序有个统一模型新工作——UniTS,感兴趣的读者也可以阅读今天发布的另外一条。
论文标题:UniST: A Prompt-Empowered Universal Model for Urban Spatio-Temporal Prediction
作者:Yuan Yuan(苑苑), Jingtao Ding(丁璟韬), Jie Feng(冯杰), Depeng Jin(金德鹏), Yong Li(李勇)
机构:清华大学
论文链接:https://arxiv.org/abs/2402.11838
Cool Paper:https://papers.cool/arxiv/2402.11838
TL,; DR:本文提出了UniST,一个基于提示的通用模型,通过灵活处理多样化时空数据、有效的生成预训练和时空知识引导的提示,实现了在多个城市和领域中的卓越泛化能力和城市时空预测性能。
关键词:时空预测,通用模型,预训练,提示微调,零样本学习,小样本学习
🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅
摘要
城市时空预测对于交通管理、资源优化和城市规划等明智决策至关重要。 尽管预训练基础模型在自然语言已经取得了显着的突破,其中通用模型可以处理跨不同领域的多项任务,但城市时空建模仍然落后。 现有的城市预测方法通常是针对特定的时空场景量身定制的,需要特定于任务的模型设计和广泛的域内训练数据。 在这项工作中,提出了一种用于城市时空预测的通用模型 UniST。 从大语言模型中汲取灵感,UniST 通过以下方式取得成功:(i) 针对不同时空数据特征的灵活性,(ii) 通过精心设计的掩码(mask)策略进行有效的生成预训练,以捕获复杂的时空关系,(iii) 时空关系知识引导的提示,可以跨场景对齐和利用内在的和共享的知识。 这些设计共同释放了具有强大泛化能力的时空预测的全能(one-for-all)模型的潜力。 在 15 个城市和 6 个领域进行的广泛实验证明了 UniST 在提升最先进的预测性能方面的普遍性,特别是在小样本和零样本场景中。
Q: 这篇论文试图解决什么问题?
A: 这篇论文提出了一个名为UniST的通用模型,旨在解决城市时空预测的问题。城市时空预测对于诸如交通管理、资源优化和城市规划等知情决策至关重要。尽管自然语言的预训练基础模型在处理多种任务方面取得了显著突破,但城市时空建模领域尚未经历类似的进步。现有的城市预测方法通常针对特定的时空场景定制,需要特定任务的模型设计和大量的领域内训练数据。UniST模型通过以下几个方面来解决这些问题:
- 灵活性:UniST能够适应多样化的时空数据特征。
- 有效的生成预训练:通过精心设计的掩码策略来捕捉复杂的时空关系。
- 时空知识引导的提示(Spatio-Temporal Knowledge-Guided Prompts):通过这些提示在不同场景之间对齐和利用内在的共享知识。
这些设计共同解锁了一个适用于所有场景的通用模型的潜力,该模型具有强大的泛化能力。通过在15个城市和6个领域的广泛实验,论文展示了UniST在推进最先进的预测性能方面的普遍性,特别是在小样本(few-shot)和零样本(zero-shot)场景中。
Q: 有哪些相关研究?
A: 这篇论文中提到的相关研究主要集中在以下几个方面:
- 城市时空预测(Urban Spatio-Temporal Prediction):
- 利用深度学习技术进行城市活动动态模式的建模和预测,包括CNN、RNN、ResNet、GNN、Transformer、MLP和扩散模型等架构。
- 基础模型(Foundation Models):
- 探索自然语言处理(NLP)和计算机视觉(CV)领域的基础模型在城市场景中的应用,如TransGPT、CityGPT、TrafficGPT等,它们在处理基于语言的时空任务方面表现出色。
- 提示微调技术(Prompt Tuning Techniques):
- 在NLP和CV领域中,提示技术已被证明能够增强预训练模型在特定任务或领域的泛化能力。这项研究与提示微调相一致,其中时空提示根据时空属性通过提示网络自适应生成。
- 时空数据和时间序列:
- 研究了基础模型在时间序列建模中的应用,尽管时间序列通常具有简单的1D结构,但时空数据在空间和时间维度上呈现更复杂的性质。
- 迁移学习和元学习(Transfer Learning and Meta-Learning):
- 一些研究探索了在城市之间进行转移学习的方法,但这些方法通常仍需要目标城市中的一定量的训练样本。
- 模型泛化(Model Generalization):
- 论文中提出的UniST模型旨在实现跨不同城市和领域的训练和预测,提供通用解决方案,这与现有解决方案相比是一个重大突破。
这些相关研究为UniST模型的提出提供了背景和基础,UniST模型通过结合这些领域的最新进展,旨在提高城市时空预测的准确性和泛化能力。
Q: 论文如何解决这个问题?
包含两部分:
- 大规模时空预训练
- 时空知识引导的提示微调
A: 论文通过提出UniST模型来解决城市时空预测的问题,具体方法如下:
- 数据收集与处理:
- 收集来自多个城市和领域的丰富时空数据,以确保模型能够从多样化的数据中学习。
- 使用时空标记器(Spatio-Temporal Tokenizers)将不同形状的数据转换为统一的序列格式,以便利用Transformer架构。
- 模型架构设计:
- 采用基于Transformer的编码器-解码器架构作为基础模型。
- 引入时空自监督预训练(Spatio-temporal Self-supervised Pretraining),通过不同的掩码策略来增强模型捕捉时空关系的能力。
- 预训练策略:
- 采用掩码token建模(Masked Token Modeling)作为预训练策略,使用不同的掩码策略来捕捉多级别的时空关系。
- 包括随机掩码、管道掩码(Tube masking)、块掩码(Block masking)和时间掩码(Temporal Masking)。
- 时空知识引导的提示微调:
- 引入一个提示网络(Prompt Network),该网络根据时空域知识生成有用的提示。
- 定义了空间记忆池和时间记忆池,用于存储有关时空域知识的有价值信息。
- 通过优化这些记忆池,模型能够自适应地选择对预测最有用的信息。
- 实验验证:
- 在15个城市和6个领域的数据集上进行了广泛的实验,验证了UniST模型在多种预测任务上的性能。
- 特别是在小样本和零样本场景下,UniST展示了其优越的可转移性。
通过这些方法,UniST模型能够在不同的城市和领域中实现强大的泛化能力,即使在只有有限或没有训练数据的情况下也能进行有效的预测。这标志着从传统的独立方法向预训练基础模型转变的一个重要步骤。
Q: 论文做了哪些实验?
短时预测:预测6步(参考Time-LLM和PatchTST)
长时预测:预测64步(参考Time-LLM和PatchTST)
1%和5%的小样本,零样本类似于迁移
A: 论文中进行了一系列实验来验证UniST模型的性能和通用性,具体包括:
- 短期预测(Short-Term Prediction):
- 在多个时空数据集上评估UniST模型的短期预测性能。
- 将UniST与其他先进的时空预测模型进行比较,包括基于启发式的方法(如历史平均HA和ARIMA)、深度城市预测方法(如STResNet、ACFM等)、视频预测方法(如PredRNN、MAU等)和多变量时间序列预测方法(如PatchTST、iTransformer等)。
- 长期预测(Long-Term Prediction):
- 扩展输入步长和预测范围,以评估模型在捕捉长期依赖性方面的能力。
- 同样与其他模型进行比较,以展示UniST在长期预测任务上的性能。
- 小样本预测(Few-Shot Prediction):
- 在训练过程中,仅使用1%、5%和10%的训练数据,以测试模型在小样本情况下的泛化能力。
- 与具有相对较好性能的基线模型进行比较,以及与元学习基线(如MAML和MetaST)和预训练微调方法(如PatchTST)进行比较。
- 零样本预测(Zero-Shot Prediction):
- 在未见过的数据集上评估UniST模型,以测试其在没有目标城市训练数据的情况下的适应能力。
- 与小样本预测设置下的基线模型进行比较,以展示UniST的零样本学习能力。
- 消融研究(Ablation Study):
- 研究了UniST模型中不同组件的影响,特别是空间和时间提示对最终性能的贡献。
- 通过移除提示中的特定时空属性(如空间接近性、空间层次性、时间周期性和时间接近性)来评估每个属性的重要性。
- 提示学习器分析(Prompt Learner Analysis):
- 对提示学习器进行深入分析,包括使用t-SNE可视化空间和时间记忆池中的嵌入,以及分析记忆池中嵌入的模式。
- 可扩展性分析(Scalability Analysis):
- 分析模型参数大小对训练损失和预测性能的影响,以评估UniST模型的可扩展性。
这些实验结果表明,UniST在多种预测任务中均取得了先进的性能,特别是在小样本和零样本场景下,证明了其作为一种通用模型的有效性和适用性。
Q: 有什么可以进一步探索的点?
A: 论文提出的UniST模型虽然在城市时空预测方面取得了显著的成果,但仍有一些方向可以进行进一步的探索:
- 多样化的时空数据格式:
- 目前UniST主要依赖于基于网格的空间划分。未来的研究可以探索如何整合不同类型的时空数据,例如基于序列的数据、基于图的数据以及其他非结构化数据。
- 更复杂的时空关系建模:
- 尽管UniST通过不同的掩码策略捕捉了多尺度的时空关系,但仍有可能通过更先进的图网络、注意力机制或其他创新的神经网络架构来进一步提升模型的时空建模能力。
- 跨领域和跨城市的泛化能力:
- 尽管UniST在多个城市和领域展示了良好的泛化能力,但进一步研究如何提高模型在面对更大范围、更多种类的城市数据时的泛化性和适应性仍然是一个有趣的方向。
- 实时预测和动态更新:
- 研究如何将UniST应用于实时预测场景,并探索如何有效地对模型进行动态更新,以适应城市动态变化的环境。
- 解释性和可解释性:
- 提高模型的解释性,使决策者能够理解模型的预测结果背后的原理,这对于实际应用中的模型部署至关重要。
- 模型效率和优化:
- 探索如何减少模型的计算成本和提高运行效率,使其能够在资源受限的环境中使用,例如移动设备或边缘计算设备。
- 多任务学习和持续学习:
- 研究UniST在多任务学习设置下的性能,以及如何通过持续学习来适应新的数据分布和预测任务。
- 模型鲁棒性和健壮性:
- 研究模型在面对数据噪声、缺失数据和异常值时的鲁棒性,并探索提高模型健壮性的方法。
- 实际部署和应用:
- 将UniST应用于实际的城市管理系统,评估其在真实世界中的性能,并探索与现有城市基础设施的集成方法。
这些方向不仅有助于推动城市时空预测领域的研究进展,还可能为城市规划、交通管理和资源优化等实际应用带来新的解决方案。
Q: 总结一下论文的主要内容
A: 这篇论文的主要内容可以总结如下:
- 问题定义:论文针对城市时空预测问题,提出了一种通用模型UniST,旨在解决现有方法在泛化能力和适应性方面的不足。
- 模型设计:UniST模型采用了基于Transformer的编码器-解码器架构,并通过时空标记器(Spatio-Temporal Tokenizers)处理多维时空数据。模型包括两个阶段:大规模时空预训练和时空知识引导的提示微调。
- 预训练策略:UniST使用多种掩码策略进行自监督预训练,以捕捉复杂的时空关系,包括随机掩码、管道掩码、块掩码和时间掩码。
- 提示微调:引入了一种创新的提示机制,利用时空知识引导提示的生成,以适应不同的时空数据分布和预测任务。
- 实验验证:在多个城市和领域的15个数据集上进行了广泛的实验,包括短期和长期预测、小样本和零样本预测,证明了UniST在各种预测任务上的优越性能。
- 消融研究和分析:通过消融研究评估了模型中不同组件的贡献,并深入分析了提示学习器的行为和模型的可扩展性。
- 未来方向:论文讨论了模型的局限性和未来可能的研究方向,包括整合多种时空数据格式、提高模型的解释性、鲁棒性和实际应用部署。
总体而言,UniST模型通过结合大型语言模型的关键特性,提出了一种新的范式,用于城市时空预测,展示了在多个城市和领域中的强大泛化能力和适应性。
完整实验结果
数据集相关信息
短程预测完整实验结果
两张表对应不同城市数据集
长程预测,少样本与零样本
🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅
相关文章:
AI论文速读 | UniST:提示赋能通用模型用于城市时空预测
本文是时空领域的统一模型——UniST,无独有偶,时序有个统一模型新工作——UniTS,感兴趣的读者也可以阅读今天发布的另外一条。 论文标题:UniST: A Prompt-Empowered Universal Model for Urban Spatio-Temporal Prediction 作者&…...
rabbitmq-spring-boot-start配置使用手册
rabbitmq-spring-boot-start配置使用手册 文章目录 1.yaml配置如下2.引入pom依赖如下2.1 引入项目resources下libs中的jar包依赖如下2.2引入maven私服依赖如下 3.启动类配置如下4.项目中测试发送消息如下5.项目中消费消息代码示例6.mq管理后台交换机队列创建及路由绑定关系如下…...
操作系统知识-操作系统作用+进程管理-嵌入式系统设计师备考笔记
0、前言 本专栏为个人备考软考嵌入式系统设计师的复习笔记,未经本人许可,请勿转载,如发现本笔记内容的错误还望各位不吝赐教(笔记内容可能有误怕产生错误引导)。 本章的主要内容见下图: 1、操作系统的作用…...
Go语言中的锁与管道的运用
目录 1.前言 2.锁解决方案 3.管道解决方案 4.总结 1.前言 在写H5小游戏的时候,由于需要对多个WebSocket连接进行增、删、查的管理和对已经建立连接的WebSocket通过服务端进行游戏数据交换的需求。于是定义了一个全局的map集合进行连接的管理,让所有…...
前端 - 基础 表单标签 -- 表单元素( input - type属性) 文本框和密码框
表单元素 : 在表单域中可以定义各种表单元素,这些表单元素就是允许用户在表单中输入或选择 的内容控件。 表单元素的外观也各不一样,有小圆圈,有正方形,也有方框,乱七八糟的,各种各样…...
关于MySQL模糊搜索不区分大小写
在我们日常使用ORM框架进行模糊查询时,会发现,搜索的结果是不区分关键字的英文大小写的,那这是为什么呢? 原因是MySQL的like本就不区分大小写;如果在建表的时候,没有设置好字段区分大小 //包含j和J的都会被…...
论文阅读——MoCo
Momentum Contrast for Unsupervised Visual Representation Learning 动量在数学上理解为加权移动平均: yt-1是上一时刻输出,xt是当前时刻输入,m是动量,不想让当前时刻输出只依赖于当前时刻的输入,m很大时࿰…...
ARM 寄存器学习:(一)arm多种模式下得寄存器
一.ARM7种状态以及每种状态的寄存器: ARM 处理器共有 7 种不同的处理器模式,在每一种处理器模式中可见的寄存器包括 15 个通用寄存器( R0~R14)、一个或两个(User和Sys不是异常模式,没有spsr寄存器)状态寄存器(cpsr和spsr&…...
【nfs报错】rpc mount export: RPC: Unable to receive; errno = No route to host
NFS错误 问题现象解决方法 写在前面 这两天搭建几台服务器,需要使用nfs服务,于是六台选其一做服务端,其余做客户端,搭建过程写在centos7离线搭建NFS共享文件,但是访问共享时出现报错:rpc mount export: RPC…...
备战蓝桥杯---牛客寒假训练营2VP
题挺好的,收获了许多 1.暴力枚举(许多巧妙地处理细节方法) n是1--9,于是我们可以直接暴力,对于1注意特判开头0但N!1,对于情报4,我们可以把a,b,c,d的所有取值枚举一遍,那么如何判断有…...
QCustomPlot-绘制X轴为日期的折线图
主要代码如下: void Widget::InitQLineXDateAddData() {customPlot new QCustomPlot(this);// 创建日期时间类型的刻度生成器QSharedPointer<QCPAxisTickerDateTime> dateTimeTicker(new QCPAxisTickerDateTime);dateTimeTicker->setDateTimeFormat(&quo…...
腾讯春招后端一面(算法篇)
前言: 哈喽大家好,前段时间在小红书和牛客上发了面试的经验贴,很多同学留言问算法的具体解法,今天就详细写个帖子回复大家。 因为csdn是写的比较详细,所以更新比较慢,大家见谅~~ 就题目而言,…...
Filebeat rpm方式安装及配置
一、使用服务器root用户、filebeat8.11.1版本,rpm安装方式进行安装 curl -L -O https://artifacts.elastic.co/downloads/beats/filebeat/filebeat-8.11.1-x86_64.rpm sudo rpm -vi filebeat-8.11.1-x86_64.rpm 二、配置核心的采集文件、使用inputs热更方式、配置filebeat本身…...
深入挖掘C语言之——枚举
目录 1. 枚举的定义 2. 枚举常量的赋值 3. 枚举的使用示例 4. 注意事项 在C语言中,枚举(Enum)是一种用户定义的数据类型,用于定义一组具名的整型常量。枚举常常用于提高代码的可读性和可维护性,使程序更易于理解。…...
【源码阅读】EVMⅢ
参考[link](https://blog.csdn.net/weixin_43563956/article/details/127725385 大致流程如下: 编写合约 > 生成abi > 解析abi得出指令集 > 指令通过opcode来映射成操作码集 > 生成一个operation 以太坊虚拟机的工作流程: 由solidity语言编…...
.Net Core 中间件验签
文章目录 为什么是用中间件而不是筛选器?代码实现技术要点context.Request.EnableBuffering()指针问题 小结 为什么是用中间件而不是筛选器? 为什么要用中间件验签,而不是筛选器去验签? 1、根据上图我们可以看到,中间件在筛选器之…...
Elasticsearch:从 Java High Level Rest Client 切换到新的 Java API Client
作者:David Pilato 我经常在讨论中看到与 Java API 客户端使用相关的问题。 为此,我在 2019 年启动了一个 GitHub 存储库,以提供一些实际有效的代码示例并回答社区提出的问题。 从那时起,高级 Rest 客户端 (High Level Rest Clie…...
七:分布式
一、Nginx nginx安装 【1】安装pcre依赖 1.下载压缩包:wget http://downloads.sourceforge.net/project/pcre/pcre/8.37/pcre-8.37.tar.gz 2.解压压缩包:tar -xvf pcre-8.37.tar.gz 3.安装gcc:yum install gcc 4.安装gcc:yum ins…...
1-postgresql数据库高可用脚本详解
问题: pgrep -f postgres > /dev/null && echo 0 || pkill keepalived 这是什么意思 建议换成 pgrep -f postmaster > /dev/null && echo 0 || pkill keepalived 回答 这条命令是一个复合命令,包含条件执行和重定向的元素。让我们…...
【亲测】Onlyfans年龄认证怎么办?Onlyfans需要年龄验证?
1. 引言 什么是OnlyFans:OnlyFans是一种内容订阅服务,成立于2016年,允许内容创作者从用户那里获得资金,用户需要支付订阅费用才能查看他们的内容。它在多个领域受到欢迎,包括音乐、健身、摄影,以及成人内容…...
ASP.NET Core新特性
1. ASP.NET Core2.1 ASP.NET Core 2.1于2018年5月30日发布。是ASP.NET Core框架的一个重要版本,带来了许多新功能和改进。以下是ASP.NET Core 2.1中一些主要的特性: SignalR:引入了 SignalR,这是一个实时通信库,使得构…...
26-Java访问者模式 ( Visitor Pattern )
Java访问者模式 摘要实现范例 访问者模式(Visitor Pattern)使用了一个访问者类,它改变了元素类的执行算法,通过这种方式,元素的执行算法可以随着访问者改变而改变访问者模式中,元素对象已接受访问者对象&a…...
电子科技大学链时代工作室招新题C语言部分---题号G
1. 题目 问题的第一段也是非常逆天,说实话,你编不出问题背景可以不编。 这道题的大概意思就是, Pia要去坐飞机,那么行李就有限重。这时Pia想到自己带了个硬盘,众所周知,硬盘上存储的数据就是0和1的二进制序…...
体育运动直播中的智能运动跟踪和动作识别系统 - 视频分析如何协助流媒体做出实时决策
AI-Powered Streaming Vision: Transforming Real-Time Decisions with Video Analytics 原著:弗朗西斯科冈萨雷斯|斯特朗(STRONG)公司首席ML科学家 翻译:数字化营销工兵 实时视频分析通过即时处理实时视频数据&…...
Avalon总线学习
Avalon总线学习 avalon总线可以分为: Avalon clock interface Avalon reset interface Avalon Memory mapped interface Avalon iterrupt interface Avalon streaming interface Avalon tri-state conduit interface Avalon conduit interface 1、Avalon c…...
Sentinel(熔断规则)
慢调用比例 慢调用比例( SLOM_REQUEST_RATTo ):选择以慢调用比例作为阈值,需要设置允许的慢调用RT(即最大的响应时间),请求的响应时间大于该值则统计为慢调用。当单位统计时长(statIntervalMs)内请求数目大于设置的最小请求数目,…...
Hive借助java反射解决User-agent编码乱码问题
一、需求背景 在截取到浏览器user-agent,并想保存入数据库中,经查询发现展示的为编码后的结果。 现需要经过url解码过程,将解码后的结果保存进数据库,那么有几种实现方式。 二、问题解决 1、百度:url在线解码工具 …...
Linux下安装Android Studio及创建桌面快捷方式
下载 官网地址:https://developer.android.com/studio?hlzh-cn点击下载最新版本即可 安装 将下载完成后文件,进行解压,然后进入android-studio-2023.2.1.23-linux/android-studio/bin目录下,启动studio.sh即可为了更加方便的使…...
【析】一类动态车辆路径问题模型和两阶段算法
一类动态车辆路径问题模型和两阶段算法 摘要 针对一类动态车辆路径问题,分析4种主要类型动态信息对传统车辆路径问题的本质影响,将动态车辆路径问题(Dynamic Vehicle Routing Problem, DVRP)转化为多个静态的多车型开放式车辆路径问题(The Fleet Size a…...
从基础入门到学穿C++
前言知识 C简介 C是一门什么样的语言,它与C语言有着什么样的关系? C语言是结构化和模块化的语言,适合处理较小规模的程序。对于复杂的问题,规模较大的程序,需要高度的抽象和建模时,C语言则不合适。为了解…...
cdr做网站流程/网推拉新app推广平台
在正常负载情况下,为每个任务分配一个线程,能够提升串行执行条件下的性能。只要请求的到达率不超出服务器的请求处理能力,那么这种方法可以同时带来更快的响应性和更高的吞吐率。如果请求的到达速率非常高,且请求的处理过程是轻量…...
网站数据库名称怎么改/整站快速排名
如今,国内的UI设计日益发展,有了专门的职业分工也开始出现一些较高水准的一线设计师与UI设计交流组织。但总的来说,在这一领域,我们掌握的技术相对来说还不成熟。因此,提高软件UI设计师的个人能力,真正提升…...
企业网站建设专业/游戏推广员怎么做
我前面有一篇文章介绍了怎么扩展Asterisk 1.8.7的CLI接口(http://www.cnblogs.com/MikeZhang/archive/2012/06/05/asterisk187CLIAddOns.html ),这里说说添加Dialplan Applications的方法。具体如下: 一、准备工作 1、进入之前建立…...
做快餐 承包食堂的公司网站/搜索引擎环境优化
目录 事件绑定 1. 如何绑定事件 2. 获取事件对象 事件绑定 说明:能够独立绑定任何事件并能获取到事件对象e 1. 如何绑定事件 语法 on 事件名称 { 事件处理程序 } ,比如:<div onClick{()>{}}></div> 注意点 react事件采…...
浙江建筑信息港官网/免费测试seo
前几天微博发生了一起大的系统故障,很多技术的朋友都比较关心,其中的原因不会超出James Hamilton在On Designing and Deploying Internet-Scale Service(1)概括的那几个范围,James第一条经验“Design for failure”是所有互联网架构成功的一个…...
怎么做外网网站监控软件/企业新闻稿发布平台
作为Android开发的组成部分,多线程的作用举足轻重,先来说说应用场景 1多线程使用场景 1.1正常使用中,经常有子线程来更新界面UI的需求,但是安卓不允许子线程更新UI 使用子线程处理UI,若线程需要较长的时间,…...