论文笔记:LaDe: The First Comprehensive Last-mile Delivery Dataset from Industry
2023 KDD
1 intro
1.1 背景
- 随着城市化进程的加快和电子商务的发展,最后一公里配送已成为一个关键的研究领域
- 最后一公里配送,如图1所示,是指连接配送中心和客户的包裹运输过程,包括包裹的取件和配送
- 除了对客户满意度至关重要外,最后一公里配送还是整个运输过程中最昂贵和最耗时的部分
- 路线规划
- 预计到达时间(ETA)预测
- 路线预测
- 这些研究的一个关键前提是高质量、大规模数据集的可用性。
- 然而,在最后一公里配送研究领域,虽然已经开发了大量算法,但仍缺乏广泛认可的、公开可用的数据集
- 因此,这一领域的研究主要集中在少数工业研究实验室中,限制了透明度并阻碍了研究进展。
1.2 论文思路
- 提出了LaDe,这是由菜鸟收集的首个综合性最后一公里配送数据集
- 包含了包裹的取件和配送数据
- Cainiao-AI/LaDe · Datasets at Hugging Face
- LaDe具有以下几个优点:
- (1) 大规模,涵盖了21,000名快递员在6个月内配送的10,677k个包裹
- 这是目前最大规模的公开数据集
- (2) 全面,提供了有关包裹、位置、任务事件和快递员的详细信息
- (3) 多样性,收集了来自不同城市的取件和配送过程的数据
- ——>凭借这些优势,LaDe可以用于评估与最后一公里相关的广泛任务
- (1) 大规模,涵盖了21,000名快递员在6个月内配送的10,677k个包裹
- 论文通过三个任务来研究其特性,包括路线预测、预计到达时间预测和时空图预测
2 相关工作
2.1 数据集视角
- 目前没有公开可用的最后一公里配送数据集同时包含包裹取件和配送数据
- 最接近的相关工作来自亚马逊[21](本文称为AmazonData)
- 这是一个由亚马逊提出的快递员执行的序列数据集,旨在为亚马逊主办的最后一公里路线研究挑战提供数据支持
- 包含了2018年亚马逊快递员在美国五个大都市区执行的9,184条历史路线
- D. Merchán, J. Arora, J. Pachon, K. Konduri, M. Winkenbach, S. Parks, and J. Noszek, “2021 amazon last mile routing research challenge: Data set,” Transportation Science, 2022.
- 存在三个局限性:
- 1) 没有取件数据,仅包含包裹配送过程中的数据;
- 2) 在时空范围和轨迹数量方面规模较小;
- 3) 缺乏与快递员及任务事件相关的信息,无法惠及有不同研究兴趣的更广泛研究群体
2.2 应用视角
- 广义上,最后一公里物流有四个分支
- 1) 新兴趋势和技术,重点研究最后一公里物流中的技术解决方案和创新
- 快递员路线及到达时间预测
- A deep learning method for route and time prediction in food delivery service
- Graph2route: A dynamic spatial-temporal graph neural network for pick-up and delivery route prediction
- 自助技术
- What’s in the parcel locker? exploring customer value in e-commerce last mile delivery
- 无人机辅助配送
- What’s in the parcel locker? exploring customer value in e-commerce last mile delivery
- 快递员路线及到达时间预测
- 2) 与最后一公里相关的数据挖掘,旨在从现实世界运营产生的数据中挖掘潜在的知识模式,以改进物流管理
- “Discovering actual delivery locations from mis-annotated couriers’ trajectories
- 3) 运营优化,主要关注优化最后一公里运营并做出更好的运营决策
- 车辆路径问题
- Last-mile delivery made practical: An efficient route planning framework with theoretical guarantees
- Appointment scheduling and routing optimization of attended home delivery system with random customer behavior
- 配送调度
- “Last-mile delivery made practical: An efficient route planning framework with theoretical guarantees
- 设施选址选择
- “Solution of two-echelon facility location problems by approximation methods
- “Locating collection and delivery points for goods’ last-mile travel: A case study in new zealand
- 车辆路径问题
- 4) 供应链结构,关注为最后一公里物流设计结构,例如网络设计[30]
- “Locating collection and delivery points for goods’ last-mile travel: A case study in new zealand
- 1) 新兴趋势和技术,重点研究最后一公里物流中的技术解决方案和创新
3 数据
3.1 数据收集
3.1.1 包裹运输流程
- 该数据集由菜鸟网络收集.包裹运输的典型过程包括以下步骤:
- 1,客户(发件人)通过在线平台下单取件。
- 2,平台将订单分派给合适的快递员。
- 3,快递员在指定时间窗口内取件并返回配送站(这构成了包裹的取件过程)。
- 4,包裹从配送站出发,通过物流网络运输至目标配送站。
- 5,在目标配送站,配送快递员取出包裹并送达收件人(称为包裹配送过程)。
- 在这些步骤中,第3步和第5步被称为最后一公里配送,快递员从/向客户取件/送件。
3.1.2 取件和配送场景异同 & LaDe的两个子数据集
- 取件和配送场景之间存在显著差异。
- 在包裹配送过程中,分配给某快递员的包裹在快递员离开配送站前就已确定。
- 而在取件过程中,分配给快递员的包裹并不是一开始就确定的,而是随着时间推移逐步揭示的,因为客户可以随时请求取件。
- 取件过程的动态性给研究领域带来了巨大挑战。
3.1.3 LaDe数据集
——>LaDe包含了两个子数据集,分别针对取件和配送场景,命名为LaDe-P和LaDe-D
- 收集了在中国不同城市中产生的数百万条取件/配送数据,数据涵盖6个月的时间
- 一个城市包含不同的区域,每个区域由多个AOI(感兴趣区域)组成,供物流管理使用
- 快递员负责在若干指定AOI内取件或送件
- 为了收集每个城市的数据,论文首先随机选择该城市中的30个区域。
- 随后,论文在每个区域中随机抽取快递员,并收集所有选定快递员在6个月内的取件/配送包裹数据
3.2 数据集详情
- 每条记录包含与取件或配送包裹相关的信息,主要涉及“谁、何地、何时”等方面。
- 具体来说,记录中说明了哪位快递员取件或送件、包裹的位置及相应的时间。
- 记录的信息大致可分为四类:
- 包裹信息,记录包裹ID及时间窗口要求
- 站点信息,如坐标、AOIID和AOI类型;
- 快递员信息,记录快递员的ID,每位快递员都配备了个人数字助理(PDA),该设备会持续向平台报告快递员的状态(例如GPS);
- 任务事件信息,记录包裹接受、取件或配送事件的特征,包括事件发生时间和快递员的位置信息。
- 包裹信息,记录包裹ID及时间窗口要求
3.3 数据集统计
- a——快递员工作时间
- b,c——包裹空间分布
- d——数据中前五大AOI类型的分布
- e——随机选择的10位快递员的实际到达时间
- f——数据集中两位快递员的工作概况
3.4 数据集特征与挑战
3.4.1 大规模
- LaDe数据集总共包含10,667k个包裹和619k条轨迹,这些轨迹由21,000名快递员生成,涵盖16,755k个GPS定位点,覆盖5个城市,跨越6个月的时间。
- 单次取件和配送场景中,快递员一次最多可处理的包裹数分别达到95个和121个
- 如此大规模的数据给最后一公里配送算法带来了显著挑战。
3.4.2 全面性
- LaDe旨在提供与最后一公里配送相关的丰富信息,涵盖了各种数据类型
- 详细的包裹信息
- 任务事件日志
- 快递员轨迹详细信息
- 上下文特征
- 如何有效利用这些综合特征来改进现有任务或启发新任务,仍然是不同领域研究人员面临的一个开放性问题。
3.4.3 多样性
- 场景多样性——我们通过收集代表取件和配送两个场景的子数据集引入场景多样性。
- 任务动态性(仅针对LaDe-P)。与LaDe-D不同,LaDe-P中的快递员任务在一天的开始时并未确定,而是随着取件过程的进行逐步揭示,因为客户可以随时下单。
- 这种快递员任务的动态性在多个研究领域中带来了显著的技术挑战,动态路线优化便是一个典型例子
4 任务
4.1 路线预测
4.2 ETA
4.3 时空图 (STG) 预测
计算出特定区域在一定时间段内的包裹数量
4.4 其他应用
相关文章:
论文笔记:LaDe: The First Comprehensive Last-mile Delivery Dataset from Industry
2023 KDD 1 intro 1.1 背景 随着城市化进程的加快和电子商务的发展,最后一公里配送已成为一个关键的研究领域 最后一公里配送,如图1所示,是指连接配送中心和客户的包裹运输过程,包括包裹的取件和配送除了对客户满意度至关重要外…...
无用的知识又增加了-静态二值贝叶斯滤波
静态二值贝叶斯滤波 静态二值贝叶斯滤波(Static Binary Bayes Filter)是一种用于处理二值状态(例如,目标存在或不存在)的简单贝叶斯滤波器。这种滤波器通常应用于目标检测、传感器融合等场景,其中状态空间…...
cesium相机(camera)控制
camera基础属性: Cesium 中的相机通过 viewer.camera 来获取和操作。 position:相机的位置,用 Cartesian3 坐标表示,表示的是相机在世界坐标系中的绝对位置。 viewer.camera.position Cesium.Cartesian3.fromDegrees(longitude, latitude, height);dir…...
Java 反射
一、基本概念 Java反射机制是Java语言的一种动态特性,允许程序在运行时检查和操作类、接口、字段和方法。反射机制使得Java程序可以在运行时获取关于类的详细信息,并且可以动态地调用类的方法、访问类的字段等。反射机制主要涉及以下几个核心类和接口&a…...
【目标检测01】真实框、预测框、锚框和交并比IoU
文章目录 1. 任务定义2. 基本概念2.1 边界框(bounding box)2.2 真实框、预测框和锚框2.3 交并比 (IoU)2.4 代码实现 1. 任务定义 目标检测的主要目的是让计算机可以自动识别图片或者视频帧中所有目标的类别,并在该目标周围绘制边界框&#x…...
青少年编程能力等级测评CPA C++五级试卷(2)
青少年编程能力等级测评CPA C++五级试卷(2) 一、单项选择题(共15题,每题3分,共45分) CP5_2_1.下列有关类的重用方法的叙述中,不正确的是( )。 A.类的继承可以实现类的重用 B.类的组合可以实现类的重用 C.类的封装可以实现类的重用 D.类的继承和类的组合都可…...
SATA数据线
SATA 数据线(Serial ATA 数据线)是一种用于连接计算机主板与存储设备(如硬盘、固态硬盘和光驱)的线缆。它的主要作用是传输数据,允许计算机与这些设备之间进行高效的数据交换。 主要作用 数据传输:SATA 数…...
《云原生安全攻防》-- K8s攻击案例:权限维持的攻击手法
在本节课程中,我们将一起深入了解K8s权限维持的攻击手法,通过研究这些攻击手法的技术细节,来更好地认识K8s权限维持所带来的安全风险。 在这个课程中,我们将学习以下内容: K8s权限维持:简单介绍K8s权限维持…...
回溯算法-Java【力扣】【算法学习day.14】
前言 ###我做这类文档一个重要的目的还是给正在学习的大家提供方向(例如想要掌握基础用法,该刷哪些题?)我的解析也不会做的非常详细,只会提供思路和一些关键点,力扣上的大佬们的题解质量是非常非常高滴&am…...
从本地到云端:跨用户请求问题的完美解决方案
对于某些单个请求或响应中含有多个用户信息的服务,SDK提供了一套基于统一的UCS拆分和聚合的解决方案供开发者使用。 请求拆分 对于跨用户服务的请求,我们提供了两个处理方案: 【1】根据用户信息拆分请求: 场景:请求内…...
leetcode day4 409+5
409 最长回文串 给定一个包含大写字母和小写字母的字符串 s ,返回 通过这些字母构造成的 最长的 回文串 的长度。 在构造过程中,请注意 区分大小写 。比如 "Aa" 不能当做一个回文字符串。 示例 1: 输入:s "abccccdd" 输出:7 解…...
英语语法学习框架(考研)
一、简单句 英语都是由简单句构成,简单句共有五种基本句型:①主谓;②主谓宾;③主谓宾宾补;④主谓宾间宾(间接宾语);⑤主系表; 其中谓语是句子最重要的部分,谓…...
基于neo4j的学术论文关系管理系统
正在为毕业设计头疼?又或者在学术研究中总是找不到像样的工具来管理浩瀚的文献资料?今天给大家介绍一款超实用的工具——基于Neo4j的学术论文关系管理系统,让你轻松搞定学术文献的管理与展示!🎉 系统的核心是什么呢&a…...
C#中的委托、匿名方法、Lambda、Action和Func
委托 委托概述 委托是存有对某个方法的引用的一种引用类型变量。定义方法的类型,可以把一个方法当作另一方法的参数。所有的委托(Delegate)都派生自 System.Delegate 类。委托声明决定了可由该委托引用的方法。 # 声明委托类型 委托类型声…...
IDEA关联Tomcat——最新版本IDEA 2024
1.链接Tomcat到IDEA上 添加Tomcat到IDEA上有两种方式: 第一种: (1)首先,来到欢迎界面,找到左侧的Customize选项 (2)然后找到Build、Execution、Deployment选项 (3&am…...
【如何获取股票数据18】Python、Java等多种主流语言实例演示获取股票行情api接口之沪深A股解禁限售数据获取实例演示及接口API说明文档
最近一两年内,股票量化分析逐渐成为热门话题。而从事这一领域工作的第一步,就是获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息,这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的主要任…...
NVR小程序接入平台/设备EasyNVR多品牌NVR管理工具/设备的多维拓展与灵活应用
在数字化安防时代,NVR批量管理软件/平台EasyNVR作为一种先进的视频监控系统设备,正逐步成为各个领域监控解决方案的首选。NVR批量管理软件/平台EasyNVR作为一款基于端-边-云一体化架构的国标视频融合云平台,凭借其部署简单轻量、功能多样、兼…...
GPT-4o 和 GPT-4 Turbo 模型之间的对比
GPT-4o 和 GPT-4 Turbo 之间的对比 备注 要弄 AI ,不同模型之间的对比就比较重要。 GPT-4o 是 GPT-4 Turbo 的升级版本,能够提供比 GPT-4 Turbo 更多的内容和信息,但成功相对来说更高一些。 第三方引用 在 2024 年 5 月 13 日࿰…...
gin入门教程(10):实现jwt认证
使用 github.com/golang-jwt/jwt 实现 JWT(JSON Web Token)可以有效地进行用户身份验证,这个功能往往在接口前后端分离的应用中经常用到。以下是一个基本的示例,演示如何在 Gin 框架中实现 JWT 认证。 目录结构 /hello-gin │ ├── cmd/ …...
Python 基础语法 - 数据类型
顾名思义,计算机就是用来做数学计算的机器,因此,计算机程序理所当然的可以处理各种数值。但是,计算机能处理的远远不止数值,还可以处理文本,图形,音频,视频,网页等各种各…...
自托管无代码数据库Undb
什么是 Undb ? Undb 是一个无代码平台,也可以作为后端即服务 (BaaS)。它基于 SQLite,可以使用 Bun 打包成二进制文件用于后端服务。此外,它可以通过 Docker 部署为服务,提供表管理的 UI。 软件特点: ⚡ 无…...
正则的正向前瞻断言和负向前瞻断言
正则的正向前瞻断言和负向前瞻断言 一. 正向前瞻断言二. 负向前瞻断言三. 总结 这是我在这个网站整理的笔记,有错误的地方请指出,关注我,接下来还会持续更新。 作者:神的孩子都在歌唱 正向前瞻断言和负向前瞻断言是正则表达式中用于检查后续字…...
大厂物联网(IoT)高频面试题及参考答案
目录 解释物联网 (IoT) 的基本概念 物联网的主要组成部分有哪些? 描述物联网的基本架构。 IoT 与传统网络有什么区别? 物联网中常用的传感器类型有哪些? 描述物联网的三个主要层次。 简述物联网中数据安全的重要性 描述物联网安全的主要威胁 解释端到端加密在 IoT 中…...
react hook
react hook 最近实习有点忙,所以学习记录没来得及写。 HOC higher order components(HOC) 高阶组件是一个组件,接受一个参数作为组件,返回值也是一个组件的函数。高阶组件作用域强化组件,服用逻辑,提升渲染性能等。…...
Jetpack架构组件_LiveData组件
1.LiveData初识 LiveData:ViewModel管理要展示的数据(VM层类似于原MVP中的P层),处理业务逻辑,比如调用服务器的登陆接口业务。通过LiveData观察者模式,只要数据的值发生了改变,就会自动通知VIEW层…...
Etcd 可观测最佳实践
简介 Etcd 是一个高可用的分布式键值存储系统,它提供了一个可靠的、强一致性的存储服务,用于配置管理和服务发现。它最初由 CoreOS 开发,现在由 Cloud Native Computing Foundation (CNCF) 维护。Etcd 使用 Raft 算法来实现数据的一致性&…...
钉钉录播抓取视频
爬取钉钉视频 免责声明 此脚本仅供学习参考,切勿违法使用下载他人资源进行售卖,本人不但任何责任! 仓库地址: GItee 源码仓库 执行顺序 poxyM3u8开启代理getM3u8url用于获取m3u8文件userAgent随机请求头downVideo|downVideoThreadTqdm单线程下载和…...
centos下面的jdk17的安装配置
文章目录 1.基本指令回顾2.jdk17的安装到这个centos上面2.1首先切换到这个root下面去2.2查看系统jdk版本2.3首先到官网找到进行下载2.4安装包的上传2.5jdk17的安装包的解压过程2.6配置环境变量2.7是否设置成功,查看版本 1.基本指令回顾 ls:list也就是列出来这个目录…...
【操作系统】——调度
🌹😊🌹博客主页:【Hello_shuoCSDN博客】 ✨操作系统详见 【操作系统专项】 ✨C语言知识详见:【C语言专项】 目录 处理机调度的概念、层次 进程调度的时机、切换与过程、方式 调度器和闲逛进程 处理机调度的概念、层…...
基于Aspose依赖添加自定义文本水印——Word、Pdf、Cell
基于Aspose依赖添加自定义文本水印——Word、Pdf、Cell 所需依赖Word水印Pdf水印——( 注意 pdf 存在找不到字体的问题)Excel水印 所需依赖 <dependency><groupId>com.aspose</groupId><artifactId>aspose-pdf</artifactId&g…...
山西网络公司网站建设/潍坊关键词优化排名
阿里妹导读:工欲善其事,必先利其器。从人工到自动化,从重复到创新,信息技术不断演进,开发者工具也在发展。开发效率低下往往是忽略了工具的使用,正确地使用开发者工具,可以让开发效率获得倍速…...
建设wap手机网站制作/北京seo优化方案
使用SMB登入扫描器对大量主机的用户名和口令进行猜解,不过扫描动静很大,容易被察觉,而且每一次登入尝试都会被扫描的主机系统日志记录下来,留下痕迹不建议使用。 实例 第一步: msf > use auxiliary/scanner/smb/smb…...
做 理财网站/seo主要优化
1: 常量 Java finanal PHP const 2 数据的定义: 声明数组 数据类型[ ] 数组名 或者 数据类型 数组名[ ]; int[] scores ;或者 int scores[]; 分配空间 数组名 new 数据类型 [ 数组长度 ]; scores new int[5] 我们也可以将上…...
做网站怎么赚钱 111/小说网站排名免费
各位同学、老师们:今天对于热爱计算机技术,热爱编程的同学们来说是个特殊的日子,烟台大学首次迎来了ACM程序设计大赛。ACM是计算机界历史最久的全球性组织,ACM大赛是全球大学生的最高水平的计算机程序设计竞赛,烟台大学…...
塔城地区建设工程信息网站/百度小说排行榜总榜
本文为大家分享了购物商城小程序,供大家参考,具体内容如下 软件版本:python3.x 功能:实现简单购物商城 1.允许用户选择购买多少件 2.允许多用户登录,下一次登录后,继续按上次的余额继续购买 3. 允许用户查看…...
做校园网站 怎么备案/百度快速排名优化服务
12月26日,红帽公司(纽交所代码:RHT)公布截止到2016年11月30日的2017财年第三季度的财务业绩。 第三季度总收入达6.15亿美元,按美元计同比增长18%,或者以固定汇率计算增长17%。第三季度订阅收入为5.43亿美元…...