论文笔记:LaDe: The First Comprehensive Last-mile Delivery Dataset from Industry
2023 KDD
1 intro
1.1 背景
- 随着城市化进程的加快和电子商务的发展,最后一公里配送已成为一个关键的研究领域
- 最后一公里配送,如图1所示,是指连接配送中心和客户的包裹运输过程,包括包裹的取件和配送
- 除了对客户满意度至关重要外,最后一公里配送还是整个运输过程中最昂贵和最耗时的部分
- 路线规划
- 预计到达时间(ETA)预测
- 路线预测
- 这些研究的一个关键前提是高质量、大规模数据集的可用性。
- 然而,在最后一公里配送研究领域,虽然已经开发了大量算法,但仍缺乏广泛认可的、公开可用的数据集
- 因此,这一领域的研究主要集中在少数工业研究实验室中,限制了透明度并阻碍了研究进展。
1.2 论文思路
- 提出了LaDe,这是由菜鸟收集的首个综合性最后一公里配送数据集
- 包含了包裹的取件和配送数据
- Cainiao-AI/LaDe · Datasets at Hugging Face
- LaDe具有以下几个优点:
- (1) 大规模,涵盖了21,000名快递员在6个月内配送的10,677k个包裹
- 这是目前最大规模的公开数据集
- (2) 全面,提供了有关包裹、位置、任务事件和快递员的详细信息
- (3) 多样性,收集了来自不同城市的取件和配送过程的数据
- ——>凭借这些优势,LaDe可以用于评估与最后一公里相关的广泛任务
- (1) 大规模,涵盖了21,000名快递员在6个月内配送的10,677k个包裹
- 论文通过三个任务来研究其特性,包括路线预测、预计到达时间预测和时空图预测
2 相关工作
2.1 数据集视角
- 目前没有公开可用的最后一公里配送数据集同时包含包裹取件和配送数据
- 最接近的相关工作来自亚马逊[21](本文称为AmazonData)
- 这是一个由亚马逊提出的快递员执行的序列数据集,旨在为亚马逊主办的最后一公里路线研究挑战提供数据支持
- 包含了2018年亚马逊快递员在美国五个大都市区执行的9,184条历史路线
- D. Merchán, J. Arora, J. Pachon, K. Konduri, M. Winkenbach, S. Parks, and J. Noszek, “2021 amazon last mile routing research challenge: Data set,” Transportation Science, 2022.
- 存在三个局限性:
- 1) 没有取件数据,仅包含包裹配送过程中的数据;
- 2) 在时空范围和轨迹数量方面规模较小;
- 3) 缺乏与快递员及任务事件相关的信息,无法惠及有不同研究兴趣的更广泛研究群体
2.2 应用视角
- 广义上,最后一公里物流有四个分支
- 1) 新兴趋势和技术,重点研究最后一公里物流中的技术解决方案和创新
- 快递员路线及到达时间预测
- A deep learning method for route and time prediction in food delivery service
- Graph2route: A dynamic spatial-temporal graph neural network for pick-up and delivery route prediction
- 自助技术
- What’s in the parcel locker? exploring customer value in e-commerce last mile delivery
- 无人机辅助配送
- What’s in the parcel locker? exploring customer value in e-commerce last mile delivery
- 快递员路线及到达时间预测
- 2) 与最后一公里相关的数据挖掘,旨在从现实世界运营产生的数据中挖掘潜在的知识模式,以改进物流管理
- “Discovering actual delivery locations from mis-annotated couriers’ trajectories
- 3) 运营优化,主要关注优化最后一公里运营并做出更好的运营决策
- 车辆路径问题
- Last-mile delivery made practical: An efficient route planning framework with theoretical guarantees
- Appointment scheduling and routing optimization of attended home delivery system with random customer behavior
- 配送调度
- “Last-mile delivery made practical: An efficient route planning framework with theoretical guarantees
- 设施选址选择
- “Solution of two-echelon facility location problems by approximation methods
- “Locating collection and delivery points for goods’ last-mile travel: A case study in new zealand
- 车辆路径问题
- 4) 供应链结构,关注为最后一公里物流设计结构,例如网络设计[30]
- “Locating collection and delivery points for goods’ last-mile travel: A case study in new zealand
- 1) 新兴趋势和技术,重点研究最后一公里物流中的技术解决方案和创新
3 数据
3.1 数据收集
3.1.1 包裹运输流程
- 该数据集由菜鸟网络收集.包裹运输的典型过程包括以下步骤:
- 1,客户(发件人)通过在线平台下单取件。
- 2,平台将订单分派给合适的快递员。
- 3,快递员在指定时间窗口内取件并返回配送站(这构成了包裹的取件过程)。
- 4,包裹从配送站出发,通过物流网络运输至目标配送站。
- 5,在目标配送站,配送快递员取出包裹并送达收件人(称为包裹配送过程)。
- 在这些步骤中,第3步和第5步被称为最后一公里配送,快递员从/向客户取件/送件。
3.1.2 取件和配送场景异同 & LaDe的两个子数据集
- 取件和配送场景之间存在显著差异。
- 在包裹配送过程中,分配给某快递员的包裹在快递员离开配送站前就已确定。
- 而在取件过程中,分配给快递员的包裹并不是一开始就确定的,而是随着时间推移逐步揭示的,因为客户可以随时请求取件。
- 取件过程的动态性给研究领域带来了巨大挑战。
3.1.3 LaDe数据集
——>LaDe包含了两个子数据集,分别针对取件和配送场景,命名为LaDe-P和LaDe-D
- 收集了在中国不同城市中产生的数百万条取件/配送数据,数据涵盖6个月的时间
- 一个城市包含不同的区域,每个区域由多个AOI(感兴趣区域)组成,供物流管理使用
- 快递员负责在若干指定AOI内取件或送件
- 为了收集每个城市的数据,论文首先随机选择该城市中的30个区域。
- 随后,论文在每个区域中随机抽取快递员,并收集所有选定快递员在6个月内的取件/配送包裹数据
3.2 数据集详情
- 每条记录包含与取件或配送包裹相关的信息,主要涉及“谁、何地、何时”等方面。
- 具体来说,记录中说明了哪位快递员取件或送件、包裹的位置及相应的时间。
- 记录的信息大致可分为四类:
- 包裹信息,记录包裹ID及时间窗口要求
- 站点信息,如坐标、AOIID和AOI类型;
- 快递员信息,记录快递员的ID,每位快递员都配备了个人数字助理(PDA),该设备会持续向平台报告快递员的状态(例如GPS);
- 任务事件信息,记录包裹接受、取件或配送事件的特征,包括事件发生时间和快递员的位置信息。
- 包裹信息,记录包裹ID及时间窗口要求
3.3 数据集统计
- a——快递员工作时间
- b,c——包裹空间分布
- d——数据中前五大AOI类型的分布
- e——随机选择的10位快递员的实际到达时间
- f——数据集中两位快递员的工作概况
3.4 数据集特征与挑战
3.4.1 大规模
- LaDe数据集总共包含10,667k个包裹和619k条轨迹,这些轨迹由21,000名快递员生成,涵盖16,755k个GPS定位点,覆盖5个城市,跨越6个月的时间。
- 单次取件和配送场景中,快递员一次最多可处理的包裹数分别达到95个和121个
- 如此大规模的数据给最后一公里配送算法带来了显著挑战。
3.4.2 全面性
- LaDe旨在提供与最后一公里配送相关的丰富信息,涵盖了各种数据类型
- 详细的包裹信息
- 任务事件日志
- 快递员轨迹详细信息
- 上下文特征
- 如何有效利用这些综合特征来改进现有任务或启发新任务,仍然是不同领域研究人员面临的一个开放性问题。
3.4.3 多样性
- 场景多样性——我们通过收集代表取件和配送两个场景的子数据集引入场景多样性。
- 任务动态性(仅针对LaDe-P)。与LaDe-D不同,LaDe-P中的快递员任务在一天的开始时并未确定,而是随着取件过程的进行逐步揭示,因为客户可以随时下单。
- 这种快递员任务的动态性在多个研究领域中带来了显著的技术挑战,动态路线优化便是一个典型例子
4 任务
4.1 路线预测
4.2 ETA
4.3 时空图 (STG) 预测
计算出特定区域在一定时间段内的包裹数量
4.4 其他应用
相关文章:
论文笔记:LaDe: The First Comprehensive Last-mile Delivery Dataset from Industry
2023 KDD 1 intro 1.1 背景 随着城市化进程的加快和电子商务的发展,最后一公里配送已成为一个关键的研究领域 最后一公里配送,如图1所示,是指连接配送中心和客户的包裹运输过程,包括包裹的取件和配送除了对客户满意度至关重要外…...
无用的知识又增加了-静态二值贝叶斯滤波
静态二值贝叶斯滤波 静态二值贝叶斯滤波(Static Binary Bayes Filter)是一种用于处理二值状态(例如,目标存在或不存在)的简单贝叶斯滤波器。这种滤波器通常应用于目标检测、传感器融合等场景,其中状态空间…...
cesium相机(camera)控制
camera基础属性: Cesium 中的相机通过 viewer.camera 来获取和操作。 position:相机的位置,用 Cartesian3 坐标表示,表示的是相机在世界坐标系中的绝对位置。 viewer.camera.position Cesium.Cartesian3.fromDegrees(longitude, latitude, height);dir…...
Java 反射
一、基本概念 Java反射机制是Java语言的一种动态特性,允许程序在运行时检查和操作类、接口、字段和方法。反射机制使得Java程序可以在运行时获取关于类的详细信息,并且可以动态地调用类的方法、访问类的字段等。反射机制主要涉及以下几个核心类和接口&a…...
【目标检测01】真实框、预测框、锚框和交并比IoU
文章目录 1. 任务定义2. 基本概念2.1 边界框(bounding box)2.2 真实框、预测框和锚框2.3 交并比 (IoU)2.4 代码实现 1. 任务定义 目标检测的主要目的是让计算机可以自动识别图片或者视频帧中所有目标的类别,并在该目标周围绘制边界框&#x…...
青少年编程能力等级测评CPA C++五级试卷(2)
青少年编程能力等级测评CPA C++五级试卷(2) 一、单项选择题(共15题,每题3分,共45分) CP5_2_1.下列有关类的重用方法的叙述中,不正确的是( )。 A.类的继承可以实现类的重用 B.类的组合可以实现类的重用 C.类的封装可以实现类的重用 D.类的继承和类的组合都可…...
SATA数据线
SATA 数据线(Serial ATA 数据线)是一种用于连接计算机主板与存储设备(如硬盘、固态硬盘和光驱)的线缆。它的主要作用是传输数据,允许计算机与这些设备之间进行高效的数据交换。 主要作用 数据传输:SATA 数…...
《云原生安全攻防》-- K8s攻击案例:权限维持的攻击手法
在本节课程中,我们将一起深入了解K8s权限维持的攻击手法,通过研究这些攻击手法的技术细节,来更好地认识K8s权限维持所带来的安全风险。 在这个课程中,我们将学习以下内容: K8s权限维持:简单介绍K8s权限维持…...
回溯算法-Java【力扣】【算法学习day.14】
前言 ###我做这类文档一个重要的目的还是给正在学习的大家提供方向(例如想要掌握基础用法,该刷哪些题?)我的解析也不会做的非常详细,只会提供思路和一些关键点,力扣上的大佬们的题解质量是非常非常高滴&am…...
从本地到云端:跨用户请求问题的完美解决方案
对于某些单个请求或响应中含有多个用户信息的服务,SDK提供了一套基于统一的UCS拆分和聚合的解决方案供开发者使用。 请求拆分 对于跨用户服务的请求,我们提供了两个处理方案: 【1】根据用户信息拆分请求: 场景:请求内…...
leetcode day4 409+5
409 最长回文串 给定一个包含大写字母和小写字母的字符串 s ,返回 通过这些字母构造成的 最长的 回文串 的长度。 在构造过程中,请注意 区分大小写 。比如 "Aa" 不能当做一个回文字符串。 示例 1: 输入:s "abccccdd" 输出:7 解…...
英语语法学习框架(考研)
一、简单句 英语都是由简单句构成,简单句共有五种基本句型:①主谓;②主谓宾;③主谓宾宾补;④主谓宾间宾(间接宾语);⑤主系表; 其中谓语是句子最重要的部分,谓…...
基于neo4j的学术论文关系管理系统
正在为毕业设计头疼?又或者在学术研究中总是找不到像样的工具来管理浩瀚的文献资料?今天给大家介绍一款超实用的工具——基于Neo4j的学术论文关系管理系统,让你轻松搞定学术文献的管理与展示!🎉 系统的核心是什么呢&a…...
C#中的委托、匿名方法、Lambda、Action和Func
委托 委托概述 委托是存有对某个方法的引用的一种引用类型变量。定义方法的类型,可以把一个方法当作另一方法的参数。所有的委托(Delegate)都派生自 System.Delegate 类。委托声明决定了可由该委托引用的方法。 # 声明委托类型 委托类型声…...
IDEA关联Tomcat——最新版本IDEA 2024
1.链接Tomcat到IDEA上 添加Tomcat到IDEA上有两种方式: 第一种: (1)首先,来到欢迎界面,找到左侧的Customize选项 (2)然后找到Build、Execution、Deployment选项 (3&am…...
【如何获取股票数据18】Python、Java等多种主流语言实例演示获取股票行情api接口之沪深A股解禁限售数据获取实例演示及接口API说明文档
最近一两年内,股票量化分析逐渐成为热门话题。而从事这一领域工作的第一步,就是获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息,这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的主要任…...
NVR小程序接入平台/设备EasyNVR多品牌NVR管理工具/设备的多维拓展与灵活应用
在数字化安防时代,NVR批量管理软件/平台EasyNVR作为一种先进的视频监控系统设备,正逐步成为各个领域监控解决方案的首选。NVR批量管理软件/平台EasyNVR作为一款基于端-边-云一体化架构的国标视频融合云平台,凭借其部署简单轻量、功能多样、兼…...
GPT-4o 和 GPT-4 Turbo 模型之间的对比
GPT-4o 和 GPT-4 Turbo 之间的对比 备注 要弄 AI ,不同模型之间的对比就比较重要。 GPT-4o 是 GPT-4 Turbo 的升级版本,能够提供比 GPT-4 Turbo 更多的内容和信息,但成功相对来说更高一些。 第三方引用 在 2024 年 5 月 13 日࿰…...
gin入门教程(10):实现jwt认证
使用 github.com/golang-jwt/jwt 实现 JWT(JSON Web Token)可以有效地进行用户身份验证,这个功能往往在接口前后端分离的应用中经常用到。以下是一个基本的示例,演示如何在 Gin 框架中实现 JWT 认证。 目录结构 /hello-gin │ ├── cmd/ …...
Python 基础语法 - 数据类型
顾名思义,计算机就是用来做数学计算的机器,因此,计算机程序理所当然的可以处理各种数值。但是,计算机能处理的远远不止数值,还可以处理文本,图形,音频,视频,网页等各种各…...
自托管无代码数据库Undb
什么是 Undb ? Undb 是一个无代码平台,也可以作为后端即服务 (BaaS)。它基于 SQLite,可以使用 Bun 打包成二进制文件用于后端服务。此外,它可以通过 Docker 部署为服务,提供表管理的 UI。 软件特点: ⚡ 无…...
正则的正向前瞻断言和负向前瞻断言
正则的正向前瞻断言和负向前瞻断言 一. 正向前瞻断言二. 负向前瞻断言三. 总结 这是我在这个网站整理的笔记,有错误的地方请指出,关注我,接下来还会持续更新。 作者:神的孩子都在歌唱 正向前瞻断言和负向前瞻断言是正则表达式中用于检查后续字…...
大厂物联网(IoT)高频面试题及参考答案
目录 解释物联网 (IoT) 的基本概念 物联网的主要组成部分有哪些? 描述物联网的基本架构。 IoT 与传统网络有什么区别? 物联网中常用的传感器类型有哪些? 描述物联网的三个主要层次。 简述物联网中数据安全的重要性 描述物联网安全的主要威胁 解释端到端加密在 IoT 中…...
react hook
react hook 最近实习有点忙,所以学习记录没来得及写。 HOC higher order components(HOC) 高阶组件是一个组件,接受一个参数作为组件,返回值也是一个组件的函数。高阶组件作用域强化组件,服用逻辑,提升渲染性能等。…...
Jetpack架构组件_LiveData组件
1.LiveData初识 LiveData:ViewModel管理要展示的数据(VM层类似于原MVP中的P层),处理业务逻辑,比如调用服务器的登陆接口业务。通过LiveData观察者模式,只要数据的值发生了改变,就会自动通知VIEW层…...
Etcd 可观测最佳实践
简介 Etcd 是一个高可用的分布式键值存储系统,它提供了一个可靠的、强一致性的存储服务,用于配置管理和服务发现。它最初由 CoreOS 开发,现在由 Cloud Native Computing Foundation (CNCF) 维护。Etcd 使用 Raft 算法来实现数据的一致性&…...
钉钉录播抓取视频
爬取钉钉视频 免责声明 此脚本仅供学习参考,切勿违法使用下载他人资源进行售卖,本人不但任何责任! 仓库地址: GItee 源码仓库 执行顺序 poxyM3u8开启代理getM3u8url用于获取m3u8文件userAgent随机请求头downVideo|downVideoThreadTqdm单线程下载和…...
centos下面的jdk17的安装配置
文章目录 1.基本指令回顾2.jdk17的安装到这个centos上面2.1首先切换到这个root下面去2.2查看系统jdk版本2.3首先到官网找到进行下载2.4安装包的上传2.5jdk17的安装包的解压过程2.6配置环境变量2.7是否设置成功,查看版本 1.基本指令回顾 ls:list也就是列出来这个目录…...
【操作系统】——调度
🌹😊🌹博客主页:【Hello_shuoCSDN博客】 ✨操作系统详见 【操作系统专项】 ✨C语言知识详见:【C语言专项】 目录 处理机调度的概念、层次 进程调度的时机、切换与过程、方式 调度器和闲逛进程 处理机调度的概念、层…...
基于Aspose依赖添加自定义文本水印——Word、Pdf、Cell
基于Aspose依赖添加自定义文本水印——Word、Pdf、Cell 所需依赖Word水印Pdf水印——( 注意 pdf 存在找不到字体的问题)Excel水印 所需依赖 <dependency><groupId>com.aspose</groupId><artifactId>aspose-pdf</artifactId&g…...
网页设计培训三个月然后就业/苏州seo网站优化软件
目录 0. 参考地址1. 前言2. 核心类3. SelectSelector核心函数代码分析3.1 注册3.2 注销3.3 查询4. 别名5. 总结6. 代码报错问题1. 文件描述符数量2. 监听列表是否可以为空7. 关系图0. 参考地址 基本介绍 https://www.cnblogs.com/yinheyi/p/8127871.html 实验演示 https://www.…...
手机网站模板大全/百度搜索关键词排名优化技术
目前,在公司小部分的业务场景中有用到 Phoenix,但也仅限基于 Phoenix 的二级索引机制来进行查询上的优化。虽然使用的频次不大,但偶尔用到时,有些语句的使用方式和注意事项总记不太熟,每次都需要一顿谷歌和百度&#x…...
政府网站建设背景说明/网上卖货的平台有哪些
2019独角兽企业重金招聘Python工程师标准>>> 场景:在B/S结构的系统中,有时客户端需要实时的获得服务器反馈的消息,但是HTTP协议只支持请求响应模式,所以我们经常通过轮询(polling)、长轮询(Long polling)、长连接、Web…...
网站开发后台能用c语言吗/北京网络推广有哪些公司
一、 需求:1、爬取豆瓣电影top250. 2、获取电影名称,排名,分数,简介,导演,演员。 3、将爬取到的数据保存,以便随时查看。 3、可以将获取到的数据展示给用户。 二、 参考: 豆瓣api参考资料 小试牛刀--利用豆瓣API爬取豆瓣电影top250 三、 …...
淮阳城乡建设局网站/衡水seo排名
tinymonit(Go Site) 可以搜集系统的CPU、内存、负载等信息,以及系统进程的CPU、内存等相关信息可自由组合,当然也支持集群模式,即如果你有多台机器多个进程仍然可以使用该包收集简单的监控信息来监控你的应用。 使用示例 获取进程监控信息获取…...
合肥网站建设新闻营销/长沙seo优化排名
前段时间 , 在脉脉上看见某95后阿里P7晒出工资单,是真的给我酸了…… 没办法回去想想 , 还是说狠补一下技术吧。 按照之前的经验来看 , Java 一面基本上都是基础题,同样是 CURD 的话,谁更熟练要谁,比如下面这个Java面试手册&…...