当前位置：首页 > news >正文

数据分析——快递电商

news 2026/2/8 15:41:06

一、任务目标

1、任务

总体目的——对账

本项目解决同时使用多个快递发货，部分隔离区域出现不同程度涨价等情形下，如何快速准确核对账单的问题。

1、在订单表中新增一列【运费差异核对】来表示订单运费实际有多少差异，结果为数值。

2、将整个核对过程包装为一个OrderCheck类，方便后续直接调用它进行数据核对。

二、数据形式

1、图像呈现

账单形式

邮寄费（不同公司）

2、文字描述

一个excel文件中有四个表，第一张是账单形式，后面是不同公司的计费方式

每个公司的信息不同（如送达地址的描述、包裹重量单位等），需要统一

三、分析步骤

1、导入数据

3.1.1存在问题

问题一：

由于原数据表中有空格，或最后有总计、数据源等不规则信息导致的，需要进行处理

问题二：

用describe()查看数值信息，发现只有邮资是纯数值，则需要对其他属性的数据进行数值转换

本数据源中，理应只有包裹重量和实际邮资是数值

但由于包裹重量的最后一行是单位（整个表最后的统计部分），不能被统计为数值

3.1.2解决方案

1、处理空行和空值

思路1：用loc定位删除空行

缺点：若新加入表，则行索引会改变，定位也就改变了

思路2：删除重复值

因为有三行空值，可先删除重复的空行

缺点：前面有数据的部分也许也会有重复值，容易导致数据缺失

思路3：统计每一行空值，判断需要删除的行

2、数据类型转换

3.1.3 语法扩展

2、数据处理

3.2.1计算运费

方法一：for循环算每一行

分析：根据地区、快递公司、重量计算运费

问题1：地区不统一

每个表的“地区”描述形式不一样

处理1：

1、读入所有表

2、统一各个表的名称

一张表：

reaname(,inplace=True)

多张表：

问题2：内容不统一

每个表省份的内容不一样

处理2：

问题3：单位不统一

每个表首重续重的写法不同，需要统一

处理3：

问题4：时间是object型，而非数值型

不能直接用于时间的比较和计算，需要转换

处理4：

进一步分析

1、取出所需数据

2、计算每一行的运费

一个小问题，关于money的取值

方法二：apply()算某一行

暂未开发

3、数据分析

3.3.1将计算结果放入一个列表

3.3.2将所需数据加入表中

4、封装类

5、运行检查得结论

1、调用

2、检查是否成功

3、数据异常

4、核对后的数据

5、存在差异的数据

四、总体代码

import pandas as pd 
import warnings
warnings.filterwarnings('ignore')
datas = pd.read_excel('./data_check_transport_fee.xlsx', sheet_name=None)
datas.keys()# 各个表的名称处理
for k in datas.keys():datas[k].columns = ['省份' if '省' in i or '地' in i else i for i in datas[k].columns]# 各个表的省份名称处理 广东省---->广东 
for k in datas.keys():datas[k]['省份'] = datas[k]['省份'].str[:2]#把每张表拿出来
data = datas['账单明细']
st = datas['申通报价']
sf = datas['顺丰报价']
db = datas['德邦报价']# 空行处理
data = data[data.isna().sum(axis=1)<5]
data.shap# 筛选有缺失的数据
ind = data.isna().sum(axis=1)>0
data[ind ]# 包裹在重量转为数值
data['包裹重量'] = data['包裹重量'].astype(float)# 修改首重续重列名称
st.rename(columns={'首重(1KG)':'首重', '续重（/KG)':'续重'}, inplace=True)
sf.rename(columns={'首重（1kg)':'首重', '续重（1kg）':'续重'}, inplace=True)# 修改时间格式
data['发货时间'] = pd.to_datetime(data['发货时间'] )money_list = []
for province,area,ways,weight,times in data[['省份', '区市', '物流方式','包裹重量','发货时间']].values:weight = weight/1000 # 重量单位转换if ways=='申通快递':if weight<=1: # 首重money = st.loc[st['省份']==province, '首重']else: # 续重money = st.loc[st['省份']==province, '首重']+(weight-1)*st.loc[st['省份']==province, '续重']if times>pd.to_datetime('2020-03-31') and area=='武汉市':money += 0.5elif ways=='德邦快递':if weight<=1:money = db.loc[db['省份']==province, '1公斤']elif 1<weight<=2:money = db.loc[db['省份']==province, '2公斤']elif 2<weight<=3:money = db.loc[db['省份']==province, '3公斤']elif 3<weight<=4:money = db.loc[db['省份']==province, '4公斤']elif 4<weight<=5:money = db.loc[db['省份']==province, '5公斤']else: money = db.loc[db['省份']==province, '5公斤'] + (weight-5)*db.loc[db['省份']==province, '5公斤以上续']elif ways=='顺丰寄付':if weight<=1: # 首重money = sf.loc[sf['省份']==province, '首重']else: # 续重money = sf.loc[sf['省份']==province, '首重']+(weight-1)*sf.loc[sf['省份']==province, '续重']else: # 顺丰到付money = pd.Series(0)try:money_list.append(money.values[0])except:money_list.append(-999)#把数据加入表中
data['运费差异核对'] = money_list
data['差异'] = data['实际邮资'] - data['运费差异核对']#定义类和函数
# 定义一OrderCheck， 返回异常数据、核对异常的数据、核对正常数据
class OrderCheck():def __init__(self, root):self.root = rootself.data, self.st, self.sf, self.db = self.prepare_data()def prepare_data(self,):datas = pd.read_excel(self.root, sheet_name=None)## 各个表的名称处理for k in datas.keys():datas[k].columns = ['省份' if '省' in i or '地' in i else i for i in datas[k].columns]## 各个表的省份名称处理 广西壮族自治区-->广西 for k in datas.keys():datas[k]['省份'] = datas[k]['省份'].str[:2]data = datas['账单明细']st = datas['申通报价']sf = datas['顺丰报价']db = datas['德邦报价']## 空行处理data = data[data.isna().sum(axis=1)<5]## 包裹在重量转为数值data['包裹重量'] = data['包裹重量'].astype(float)## 修改首重续重列名称st.rename(columns={'首重(1KG)':'首重', '续重（/KG)':'续重'}, inplace=True)sf.rename(columns={'首重（1kg)':'首重', '续重（1kg）':'续重'}, inplace=True)# 修改时间格式data['发货时间'] = pd.to_datetime(data['发货时间'] )return data,st,sf,dbdef get_bad_data(self): # 返回异常数据# 筛选有缺失的数据ind = self.data.isna().sum(axis=1)>0return self.data[ind]def check(self):data, st, sf, db = self.prepare_data()money_list = []for province,area,ways,weight,times in data[['省份', '区市', '物流方式','包裹重量','发货时间']].values:weight = weight/1000 # 重量单位转换if ways=='申通快递':if weight<=1: # 首重money = st.loc[st['省份']==province, '首重']else: # 续重money = st.loc[st['省份']==province, '首重']+(weight-1)*st.loc[st['省份']==province, '续重']if times>pd.to_datetime('2020-03-31') and area=='武汉市':money += 0.5elif ways=='德邦快递':if weight<=1:money = db.loc[db['省份']==province, '1公斤']elif 1<weight<=2:money = db.loc[db['省份']==province, '2公斤']elif 2<weight<=3:money = db.loc[db['省份']==province, '3公斤']elif 3<weight<=4:money = db.loc[db['省份']==province, '4公斤']elif 4<weight<=5:money = db.loc[db['省份']==province, '5公斤']else: money = db.loc[db['省份']==province, '5公斤'] + (weight-5)*db.loc[db['省份']==province, '5公斤以上续']elif ways=='顺丰寄付':if weight<=1: # 首重money = sf.loc[sf['省份']==province, '首重']else: # 续重money = sf.loc[sf['省份']==province, '首重']+(weight-1)*sf.loc[sf['省份']==province, '续重']else: # 顺丰到付money = pd.Series(0)try:money_list.append(money.values[0])except:money_list.append(-999)data['运费差异核对'] = money_listdata['差异'] = data['实际邮资'] - data['运费差异核对']return data #调用一下
che = OrderCheck('./data_check_transport_fee.xlsx')#检查路径和是否成功
che.root 
che.st#查看异常数据
che.get_bad_data()#查看核对数据
check_data = che.check()#查看差异存在的数据
check_data[check_data['差异']==0]

五、总结

5.1难点总结

1、异常值处理

询问业务、手动填补、try

2、名称、内容、单位、数值类型的统一

3、重量计算

用定位实现，要注意取不到最后一行的需要+1

4、类的书写和函数定义

取值需要多尝试，要清楚的判断数值类型，输出类型，用value或多套data，或者分开取

5.2方案总结

5.2.1思维总结

1、对于订单、账单等含有多种数值、涉及计算的数据源，需要多次用info（）查看数据类型，确保类型为纯数值，方便后续处理

2、拿到数据源后，要根据目标or要得到的分析结果，判断表中的有效信息数据为哪些，并取出来

3、找表之间的关系时，想到表连接，或内容匹配（如：河北省与河北，都有河北二字，就取相同值）

5.2.2方法总结

1、数值转换

2、空值处理

isna()

3、将数据加入列表再加入表

4、数值获取

········太多了都在上面了

数据分析——快递电商

一、任务目标 1、任务总体目的——对账本项目解决同时使用多个快递发货，部分隔离区域出现不同程度涨价等情形下，如何快速准确核对账单的问题。 1、在订单表中新增一列【运费差异核对】来表示订单运费实际有多少差异，结果为数值。 2、将…...

编程日记 2024/1/7 10:39:42

《PCI Express体系结构导读》随记 —— 第I篇第2章 PCI总线的桥与配置（8）

接前一篇文章：《PCI Express体系结构导读》随记 —— 第I篇第2章 PCI总线的桥与配置（7） 2.2 HOST主桥 MPC8548处理器的拓扑结构如图2-2所示： 2.2.2 存储器域地址空间到PCI总线域地址空间的转换 MPC8548处理器使用ATMU&#xff…...

编程日记 2024/1/7 10:37:40

Hadoop分布式文件系统(二)

目录一、Hadoop 1、文件系统 1.1、文件系统定义 1.2、传统常见的文件系统 1.3、文件系统中的重要概念 1.4、海量数据存储遇到的问题 1.5、分布式存储系统的核心属性及功能含义 2、HDFS 2.1、HDFS简介 2.2、HDFS设计目标 2.3、HDFS应用场景 2.4、HDFS重要特性 2.4…...

编程日记 2024/1/7 10:36:39

macOS跨进程通信: FIFO(有名管道) 创建实例

一： 简介在类linux系统中管道分为有名管道和匿名管道。两者都能单方向的跨进程通信。匿名管道（pipe）: 必须是父子进程之间，而且子进程只能由父进程fork() 出来的，才能继承父进程的管道句柄，一般mac 开发…...

编程日记 2024/1/7 10:35:38

企业数据库安全管理规范

1.目的为规范数据库系统安全使用活动，降低因使用不当而带来的安全风险，保障数据库系统及相关应用系统的安全，特制定本数据库安全管理规范。 2.适用范围本规范中所定义的数据管理内容，特指存放在信息系统数据库中的数据。本…...

编程日记 2024/1/7 10:32:35

react：ffcreator中FFCreatorCenter视频队例

最近项目要求，一键生成房子的推荐视频，选几张图，加上联系人的方式就是一个简单的视频，因为有web端、小程序端，为了多端口用，决定放在服务器端生成。目前用的是react中的nextjs来开发项目。 nextjs中怎样…...

编程日记 2024/1/7 10:31:34

力扣（leetcode）第434题字符串中的单词数（Python）

434.字符串中的单词数题目链接：434.字符串中的单词数统计字符串中的单词个数，这里的单词指的是连续的不是空格的字符。请注意，你可以假定字符串里不包括任何不可打印的字符。示例: 输入: “Hello, my name is John” 输出: 5 解释: 这…...

编程日记 2024/1/7 10:28:31

django学习：页面渲染与请求和响应

1.请求过程 2.页面渲染在app中新建一个目录（Directory），文件名命名为templates。该文件名命名是固定的，不可命名出错，如若后续步骤出错，该目录文件名是一个检查的重点项目。在该目录下新建一个html文件&a…...

编程日记 2024/1/7 10:27:31

Redis 数据一致性

概述当我们在使用缓存时，如果发生数据变更，那么你需要同时操作缓存和数据库，而它们两个又分属不同的系统，因此无法做到同时操作成功或失败，因此在并发读写下很可能出现缓存与数据库数据不一致的情况理论上可以通过…...

编程日记 2024/1/7 10:25:28

Mac环境下反编译apk

Mac环境下反编译apk 安装反编译工具dex2jar：[官网下载](https://sourceforge.net/projects/dex2jar/)JD-GUI：[官网下载](https://jd-gui.apponic.com/) 实操1. 将需要反编译的 .apk 文件放在下载的 dex2jar 文件夹目录下2. 使用 cd /xxx/dex2jar-2.0 命令…...

编程日记 2024/1/7 10:22:26

计算机网络——网络模型的组织、看法以及标准化流程

1. 通信技术和标准化领域中扮演重要角色的组织 1.1 国际和国家官方标准化机构 OSI：国际标准化组织（ISO），负责国际标准的制定，旨在确保全球产品和服务的安全性、可靠性和效率。它有许多国家分支机构，包括法…...

编程日记 2024/1/7 10:18:23

【JAVA】volatile 关键字的作用

🍎个人博客：个人主页 🏆个人专栏： JAVA ⛳️ 功不唐捐，玉汝于成目录前言正文 volatile 的作用： 结语我的其他博客前言在多线程编程中，保障数据的一致性和线程之间的可见性是…...

编程日记 2024/1/7 10:17:22

Next.js 第一次接触

因为需要整个漂亮的在线文档，所以接触了next.js，因为对前端js本身不够熟悉，别说对react.js 又不会，时间又不允许深入研究，所以，为了加一个导航菜单，极其痛苦。有点小bug，不过不影响…...

编程日记 2024/1/7 10:16:21

CISSP 第7章：PKI和密码学应用

第七章 PKI和密码学应用 7.1 非对称密码学对称密码系统具有共享的秘钥系统，从而产生了安全秘钥分发的问题非对称密码学使用公钥和私钥对，无需支出复杂密码分发系统 7.1.1 公钥与私钥 7.1.2 RSA（兼具加密和数字签名） RSA算法依赖…...

编程日记 2024/1/7 10:14:18

dji uav建图导航系列（）ROS中创建dji_sdk节点包（二）实现代码

在前文【dji uav建图导航系列（）ROS中创建dji_sdk节点包（一）项目结构】中简单介绍了项目的结构，和一些配置文件的代码。本文详细说明目录src下的节点源代码实现。文章目录 1、代码结构2、PSDK部分3、ROS部分3.1、头文件3.1.1、外部调用 node_service.h3.1.2、节点类定义…...

编程日记 2024/1/7 10:13:17

数字化工厂产品推荐带OPC UA的分布式IO模块

背景近年来，为了提升在全球范围内的竞争力，制造企业希望自己工厂的机器之间协同性更强，自动化设备采集到的数据能够发挥更大的价值，越来越多的传统型工业制造企业开始加入数字化工厂建设的行列，实现智能制造。数字化…...

编程日记 2024/1/7 10:12:16

使用OHOS SDK构建opus

参照OHOS IDE和SDK的安装方法配置好开发环境。从github下载源码。执行如下命令： git clone --depth1 https://github.com/xiph/opus进入源码所在的目录，创建批处理文件ohos_build.cmd，内容如下： echo off setlocalset OHOS_…...

编程日记 2024/1/7 10:11:15

K-means 聚类算法分析

算法简述 K-means 算法原理我们假定给定数据样本 X ，包含了 n 个对象 ，其中每一个对象都具有 m 个维度的属性。而 K-means 算法的目标就是将 n 个对象依据对象间的相似性聚集到指定的 k 个类簇中，每个对象属于且仅属于一个其到类簇中心距离…...

编程日记 2024/1/7 10:07:10

uniapp获取定位

Uniapp 是一种跨平台应用开发框架，它能够快速地构建出针对不同平台的应用程序。在Uniapp中，实现定位功能也变得十分简单，只需要简单的配置就能轻松实现。一、高德地图根据指定位置获取经纬度参考地址：地理/逆地理编码-基础 API…...

编程日记 2024/1/7 10:06:09

【Go】3、Go语言进阶与依赖管理

前言本系列文章参考自稀土掘金上的【字节内部课】公开课，做自我学习总结整理。 Go语言并发编程 Go语言原生支持并发编程，它的核心机制是 Goroutine 协程、Channel 通道，并基于CSP（Communicating Sequential Processes&#xff0…...

编程新知 2025/10/7 0:32:40

Python如何给视频添加音频和字幕

在Python中，给视频添加音频和字幕可以使用电影文件处理库MoviePy和字幕处理库Subtitles。下面将详细介绍如何使用这些库来实现视频的音频和字幕添加，包括必要的代码示例和详细解释。环境准备在开始之前，需要安装以下Python库：…...

编程新知 2025/9/3 4:12:17

Python Einops库：深度学习中的张量操作革命

Einops（爱因斯坦操作库）就像给张量操作戴上了一副"语义眼镜"——让你用人类能理解的方式告诉计算机如何操作多维数组。这个基于爱因斯坦求和约定的库，用类似自然语言的表达式替代了晦涩的API调用，彻底改变了深度学习工程…...

编程新知 2025/10/16 12:04:52

Vue ③-生命周期 || 脚手架

生命周期思考：什么时候可以发送初始化渲染请求？（越早越好） 什么时候可以开始操作dom？（至少dom得渲染出来） Vue生命周期： 一个Vue实例从创建到销毁的整个过程。生命周期四个…...

编程新知 2026/2/5 5:24:23

前端中slice和splic的区别

1. slice slice 用于从数组中提取一部分元素，返回一个新的数组。特点： 不修改原数组：slice 不会改变原数组，而是返回一个新的数组。提取数组的部分：slice 会根据指定的开始索引和结束索引提取数组的一部分。不包含…...

编程新知 2025/11/27 20:15:13

[论文阅读]TrustRAG: Enhancing Robustness and Trustworthiness in RAG

TrustRAG: Enhancing Robustness and Trustworthiness in RAG [2501.00879] TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation 代码：HuichiZhou/TrustRAG: Code for "TrustRAG: Enhancing Robustness and Trustworthin…...

编程新知 2026/2/4 17:33:27

前端高频面试题2：浏览器/计算机网络

本专栏相关链接前端高频面试题1：HTML/CSS 前端高频面试题2：浏览器/计算机网络前端高频面试题3：JavaScript 1.什么是强缓存、协商缓存？ 强缓存： 当浏览器请求资源时，首先检查本地缓存是否命中。如果命…...

编程新知 2025/11/5 4:36:26

DAY 26 函数专题1

函数定义与参数知识点回顾：1. 函数的定义2. 变量作用域：局部变量和全局变量3. 函数的参数类型：位置参数、默认参数、不定参数4. 传递参数的手段：关键词参数5 题目1：计算圆的面积任务： 编写一…...

编程新知 2025/11/28 7:53:17

机器学习的数学基础：线性模型

线性模型线性模型的基本形式为： f ( x ) ω T x b f\left(\boldsymbol{x}\right)\boldsymbol{\omega}^\text{T}\boldsymbol{x}b f(x)ωTxb 回归问题利用最小二乘法，得到 ω \boldsymbol{\omega} ω和 b b b的参数估计$ \boldsymbol{\hat{\omega}}…...

编程新知 2025/10/2 9:07:50