当前位置：首页 > news >正文

数据分析——火车信息

news 2026/2/8 9:58:01

任务目标

任务

1、整理火车发车信息数据，结果的表格形式为：

2、并输出最终的发车信息表

难点

1、多文件

一个文件夹，多个月的发车信息，一个excel，放一天的发车情况

2、数据表的格式特殊

如何分析表是一个难点

数据形式

图像呈现

文字描述

1、一张表含多辆车次信息

2、一辆车次信息分为标题（日期、车次、定员、客座率）和表格信息部分

3、表格信息部分分为x，y轴看

横着是发车站点、发车时间、下车人数

竖着是目标站点、到达时间、上车人数

4、图标呈现下三角趋势，因为过站无上车人数

注意：

因为横着是上车站点，终点站没有人上车，所以横着的车次不包含终点站，是所有车次-1

竖着的车次包含终点站——即所有车次信息

分析步骤

1、导入数据

存在问题

与原数据不同，原数据中的表头在该表的第一列中，每个属性对应的行为空值

处理方法

处理结果

结果分析

1、38列

因为原excel表中，有车次信息到第38列，导入数据会保持表格格式完整性，所以取最大列数

不到38的列数均为空值，需要处理

2、表格信息被存放在第一行中，还需处理

3、目标需求信息只到29列的下车人数，所以需要把有效信息抠出来

语法扩展（别人的资料）

python中pandas包使用的一个header参数_header=none-CSDN博客

2、数据处理

2.1获取有效信息（扣表）

2.1.1思路分析

1、判断车次

整张表包含很多车次

要知道哪一辆车是第几行到第几行，需要拆分

（即怎么判断，eg：0-33为车1，34-45为车2，······）

2、处理表头

导入的表中有很多表头，需要处理，把所有车次的表头抽取出来，找共同点

都有客座率

2.1.2解决方案

1、找表头

1.1data[0]

因为数据表行列均有属性，表头均在第0列，所以先判断data[0]是第0行还是第0列

1.2找到含有“客座率”的行数

语法扩展

apply()、lambda

loc()

Pandas读取某列、某行数据——loc、iloc用法总结_pandas读取某一行的数据-CSDN博客

1.3生成由表头信息组成的表

1.4批量分割+展开表

按照空格分割后得到一个表格

split()

Python知识精解：str split()方法 - 知乎 (zhihu.com)

expand参数

pandas的分列操作str.split()_pandas数据分列-CSDN博客

2、生成除表头外的信息表

data=data[~ind]

3、生成一趟车的数据

1、根据上车站点和上车人数所在的行（用遍历匹配）

确定每一趟列车所包含的行数，再扣其中的数据

2、找第一趟车的信息

3、重置行索引

因为之前删数据把行索引删了，出现了数据缺失，需要重置行索引

drop——删除多余的一列index

4、删除空值

重置索引后的表格为

表中30列后的值均为空值，需要删除

用空值数量进行判断，若某一列中空值数量=行数，则证明该列全为空，需要删除

5、生成完整一趟车的信息表

语法扩展

loc、iloc区别

pandas索引函数loc和iloc的区别_pandas loc与iloc区别-CSDN博客

loc基于标签索引、iloc基于位置索引

reset_index()

如何在pandas中使用set_index( )与reset_index( )设置索引 - 知乎 (zhihu.com)

3、数据分析

处理后的表

3.1取表头信息表中所需数据

3.2把表头信息与每辆车挂钩

原数据（2个表）

表头表

车次表

通过索引和步长取出需要的信息行

这样就匹配成功了

3.3、取所有站点

3.4循环所有站点取数据（用定位）

都用条件筛选

3.5整体操作（合并前面操作）

语法扩展

python dataframe是什么_Pandas 库之 DataFrame-CSDN博客

4、封装函数

5、数据导出

语法扩展

glob——查找文件

Python标准库glob模块详解_python glob-CSDN博客

tpdm——进度条

【python第三方库】tqdm简介_python tqdm库-CSDN博客

enumerate() 函数

Python enumerate() 函数 | 菜鸟教程

to_csv()

pandas的to_csv()使用方法_pandas to_csv-CSDN博客

总体代码

import warnings
warnings.filterwarnings('ignore')
import pandas as pdpath = './201501-201603/201501/20150101.xls'
data = pd.read_excel(path, skiprows=2, header=None)
data.head(50)# 日期
dates = path.split('/')[-1][:8]ind = data[0].apply(lambda x: '客座率' in x) # 筛选有车次信息的行数据
car_info = data.loc[ind, 0]
car_info = car_info.str.split(' ', expand=True) # 这里的得到车次、定员、客座率car_info# 删除车次信息行
data = data[~ind]
data.reset_index(inplace=True, drop=True)
data.head()## 接下来：找到某一趟车所在的小表格，思路就是找到【上车站、上车人数合计】所在的行
ind = data[0].apply(lambda x: '上车站'==x or '上车人数合计'==x)
car_index = data[ind]all_car = pd.DataFrame()
for start, end, checi, dingyuan, kezuolv in zip(car_index.index[0::2],car_index.index[1::2], car_info[0], car_info[6], car_info[8]):one_car = data.iloc[start:end+1, :] # 截取其中一趟车的数据one_car.reset_index(inplace=True, drop=True) # 重置索引col_ind = one_car.isna().sum(axis=0)==len(one_car) # 判断全为空的列one_car = one_car.loc[:, ~col_ind] # 删除空列station = one_car.iloc[2:-1, 0] # 取所有站点，在2至倒数第一行one_car_list = []for s in station: # 循环每个站点去取数据one_car_dict = {}one_car_dict['车次'] = checione_car_dict['定员'] = dingyuanone_car_dict['客座率'] = kezuolvone_car_dict['日期'] = datesone_car_dict['站点'] = sone_car_dict['进站时间'] = one_car.loc[one_car[0]==s, 1].values[0] # 进站时间one_car_dict['下车人数'] = one_car.loc[one_car[0]==s, one_car.shape[1]-1].values[0] # 下车人数try:one_car_dict['离站时间'] = one_car.loc[1,one_car.iloc[0]==s].values[0] # 离站时间one_car_dict['上车人数'] = one_car.loc[len(one_car)-1,one_car.iloc[0]==s].values[0] # 上车人数except:one_car_dict['离站时间'] = '--' # 终点站没有出站时间和人数one_car_dict['上车人数'] = '--'one_car_list.append(one_car_dict)one_car_data = pd.DataFrame(one_car_list)break#all_car = pd.concat([all_car, one_car_data])
#这一步结束就能看到处理后表的信息了one_car_datadef get_one_file(path):data = pd.read_excel(path, skiprows=2, header=None) # 读数据dates = path.split('/')[-1][:8] # 日期ind = data[0].apply(lambda x: '客座率' in x) # 筛选有车次信息的行数据car_info = data.loc[ind, 0]car_info = car_info.str.split(' ', expand=True) # 这里的得到车次、定员、客座率data = data[~ind] # 删除车次信息行data.reset_index(inplace=True, drop=True)## 接下来：找到某一趟车所在的小表格，思路就是找到【上车站、上车人数合计】所在的行ind = data[0].apply(lambda x: '上车站'==x or '上车人数合计'==x)car_index = data[ind]all_car = pd.DataFrame()for start, end, checi, dingyuan, kezuolv in zip(car_index.index[0::2],car_index.index[1::2], car_info[0], car_info[6], car_info[8]):one_car = data.iloc[start:end+1, :] # 截取其中一趟车的数据one_car.reset_index(inplace=True, drop=True) # 重置索引col_ind = one_car.isna().sum(axis=0)==len(one_car) # 判断全为空的列one_car = one_car.loc[:, ~col_ind] # 删除空列station = one_car.iloc[2:-1, 0] # 取所有站点，在2至倒数第一行one_car_list = []for s in station: # 循环每个站点去取数据one_car_dict = {}one_car_dict['车次'] = checione_car_dict['定员'] = dingyuanone_car_dict['客座率'] = kezuolvone_car_dict['日期'] = datesone_car_dict['站点'] = sone_car_dict['进站时间'] = one_car.loc[one_car[0]==s, 1].values[0] # 进站时间one_car_dict['下车人数'] = one_car.loc[one_car[0]==s, one_car.shape[1]-1].values[0] # 下车人数try:one_car_dict['离站时间'] = one_car.loc[1,one_car.iloc[0]==s].values[0] # 离站时间one_car_dict['上车人数'] = one_car.loc[len(one_car)-1,one_car.iloc[0]==s].values[0] # 上车人数except:one_car_dict['离站时间'] = '--' # 终点站没有出站时间和人数one_car_dict['上车人数'] = '--'one_car_list.append(one_car_dict)one_car_data = pd.DataFrame(one_car_list)all_car = pd.concat([all_car, one_car_data])return all_carfrom glob import glob
from tqdm import tqdm
all_path = glob('./201501-201603/*/*')
for i,path in tqdm(enumerate(all_path)):data = get_one_file(path)if i==0:data.to_csv('./result.csv', header=True, index=None, encoding='utf8', mode='a')else:data.to_csv('./result.csv', header=None, index=None, encoding='utf8', mode='a')

数据分析——火车信息

任务目标任务 1、整理火车发车信息数据，结果的表格形式为： 2、并输出最终的发车信息表难点 1、多文件一个文件夹，多个月的发车信息，一个excel，放一天的发车情况 2、数据表的格式特殊如何分析表是一个难点数…...

编程日记 2024/1/10 11:39:18

Bert-vits2最终版Bert-vits2-2.3云端训练和推理(Colab免费GPU算力平台)

对于深度学习初学者来说，JupyterNoteBook的脚本运行形式显然更加友好，依托Python语言的跨平台特性，JupyterNoteBook既可以在本地线下环境运行，也可以在线上服务器上运行。GoogleColab作为免费GPU算力平台的执牛耳者，更…...

编程日记 2024/1/10 11:38:17

Asp .Net Web应用程序（.Net Framework4.8）网站发布到IIS

开启IIS 如果已开启跳过这步打开控制面板-程序打开IIS 发布Web程序（.Net Framework 4.8 web网页） 进入IIS管理器新建一个应用池新建一个网站网站创建完毕为文件夹添加访问权限如果不添加访问权限，运行时将会得到如下错误设置权限勾…...

编程日记 2024/1/10 11:37:16

vue element plus Typography 排版

我们对字体进行统一规范，力求在各个操作系统下都有最佳展示效果。字体# 字号# LevelFont SizeDemoSupplementary text12px Extra SmallBuild with ElementBody (small)13px SmallBuild with ElementBody14px BaseBuild with ElementSmall Title16px MediumBuild w…...

编程日记 2024/1/10 11:35:14

理论U3 决策树

文章目录一、决策树算法1、基本思想2、构成1）节点3）有向边/分支 3、分类步骤1）第1步-决策树生成/学习、训练2）第2步-分类/测试 4、算法关键二、信息论基础1、概念2、信息量3、信息熵： 二、ID3 (Iterative Dichotomis…...

编程日记 2024/1/10 11:34:13

Redis 常用操作

一、Redis常用的5种数据类型字符串（String）：最基本的数据类型，可以存储字符串、整数或浮点数。哈希（Hash）：键值对的集合，可以在一个哈希数据结构中存储多个字段和值。列表&#xf…...

编程日记 2024/1/10 11:33:12

c# 使用Null合并操作符例子

在这个示例中，我们定义了两个字符串变量 name 和 defaultName。变量 name 被赋值为 null，而变量 defaultName 被赋值为 “John Doe”。接下来，我们使用 Null 合并操作符 ?? 来获取一个非空值。如果 name 不为 null，则 result 的…...

编程日记 2024/1/10 11:31:10

【Docker】docker部署conda并激活环境

编程日记 2024/1/10 11:28:08

HarmonyOS@Link装饰器：父子双向同步

Link装饰器：父子双向同步子组件中被Link装饰的变量与其父组件中对应的数据源建立双向数据绑定。说明从API version 9开始，该装饰器支持在ArkTS卡片中使用。概述 Link装饰的变量与其父组件中的数据源共享相同的值。装饰器使用规则说明 Link变…...

编程日记 2024/1/10 11:24:04

【idea】idea插件编写教程，博主原创idea插件欢迎下载

前言：经常使用Objects.equals(a,b)方法的同学应该或多或少都会因为粗心而传错参， 例如日常开发中我们使用Objects.equals去比较 status(入参)，statusEnum(枚举), 很容易忘记statusEnum.getCode() 或 statusEnum.getVaule() ，再比…...

编程日记 2024/1/10 11:16:59

深入理解 Hadoop （四）HDFS源码剖析

HDFS 集群启动脚本 start-dfs.sh 分析启动 HDFS 集群总共会涉及到的角色会有 namenode, datanode, zkfc, journalnode, secondaryName 共五种角色。 JournalNode 核心工作和启动流程源码剖析 // 启动 JournalNode 的核心业务方法 public void start() throws IOException …...

编程日记 2024/1/10 11:15:58

【Vue3+React18+TS4】1-1 : 课程介绍与学习指南

本书目录：点击进入一、为什么做这样一门课程? 二、本门课的亮点有哪些? 2.1、轻松驾驭 2.2、体系系统 2.3、高效快捷 2.4、融合贯通三、课程内容包括哪些? 四、项目实战《在线考勤系统》五、课适合哪些同学? 一、为什么做这样一门课程? 近十年内前端…...

编程日记 2024/1/10 11:13:56

Nacos与Eureka的区别详解

Nacos与Eureka的区别详解在微服务架构中，服务注册与发现是核心组件之一，它们允许服务实例在启动时自动注册，并且能被其他服务发现，从而实现服务之间的互相通信。Nacos和Eureka都是现代微服务体系中广泛使用的服务注册与发现工具。本文将深入分析二者的区别，并为您提供一…...

编程日记 2024/1/10 11:12:55

【算法刷题】Day28

文章目录 1. 买卖股票的最佳时机 III题干：算法原理：1. 状态表示：2. 状态转移方程3. 初始化4. 填表顺序5. 返回值代码： 2. Z 字形变换题干：算法原理：1. 模拟2. 找规律代码： 1. 买卖股票的最佳时…...

编程日记 2024/1/10 11:11:54

深入了解pnpm：一种高效的包管理工具

✨专栏介绍在当今数字化时代，Web应用程序已经成为了人们生活和工作中不可或缺的一部分。而要构建出令人印象深刻且功能强大的Web应用程序，就需要掌握一系列前端技术。前端技术涵盖了HTML、CSS和JavaScript等核心技术，以及各种框架、库和工具…...

编程日记 2024/1/10 11:06:50

QEMU源码全解析 —— PCI设备模拟（1）

接前一篇文章： 1. PCI设备简介 PCI是用来连接外设的一种局部（local）总线，其主要功能是连接外部设备。PCI总线规范在20世纪90年代提出以后，其逐渐取代了其它各种总线，被各种处理器所支持。直到现在&#xf…...

编程日记 2024/1/10 11:02:47

Vue-10、Vue键盘事件

1、vue中常见的按键别名回车 ---------enter <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>键盘事件</title><script type"text/javascript" src"h…...

编程日记 2024/1/10 10:59:44

胡圆圆的暑期实习经验分享

背景实验室一般是在研究生二年级的时候会放实习，在以后的日子就是自己完成毕业工作要求，基本上不再涉及实验室的活了，目前是一月份也是开始准备暑期实习的好时间。实验室每年这个时候都会有学长学姐组织暑期实习经验分享，本着不…...

编程日记 2024/1/10 10:56:42

基于uniapp封装的table组件

数据格式 tableData: [{elcInfo: [{tableData:[1,293021.1,293021.1,293021.1,293021.1,]}]},{elcInfo: [{tableData:[1,293021.1,293021.1,293021.1,293021.1,]}]},{elcInfo: [{tableData:[1,293021.1,293021.1,293021.1,293021.1,]}]},/* {title: "2",elcInfo: [{…...

编程日记 2024/1/10 10:51:37

Git删除远程仓库某次提交记录后的所有提交

1、鼠标右键->git bash here，然后cd切换到代码目录； 2、git log查看提交记录，获取commit id 3、git reset commit id（commit id指要保留的最新的提交记录id） 4、git push --force，强制push 如果出现…...

编程日记 2024/1/10 10:47:34

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周，有很多同学在写期末Java web作业时，运行tomcat出现乱码问题，经过多次解决与研究，我做了如下整理： 原因： IDEA本身编码与tomcat的编码与Windows编码不同导致，Windows 系统控制台…...

编程新知 2026/2/8 4:37:39

铭豹扩展坞 USB转网口突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别，但在其他电脑上正常工作时，问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤，帮助你快速找到故障原因：背景：一个M-pard（铭豹）扩展坞的网卡突然无法识别了，扩展出来的三个USB接口正常。…...

编程新知 2026/2/8 4:37:22

什么是库存周转？如何用进销存系统提高库存周转率？

你可能听说过这样一句话： “利润不是赚出来的，是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业，很多企业看着销售不错，账上却没钱、利润也不见了，一翻库存才发现： 一堆卖不动的旧货…...

编程新知 2026/1/26 13:21:10

Python爬虫（一）：爬虫伪装

一、网站防爬机制概述在当今互联网环境中，具有一定规模或盈利性质的网站几乎都实施了各种防爬措施。这些措施主要分为两大类： 身份验证机制：直接将未经授权的爬虫阻挡在外反爬技术体系：通过各种技术手段增加爬虫获取数据的难度…...

编程新知 2026/1/30 20:42:46

【Java_EE】Spring MVC

目录 Spring Web MVC 编辑注解 RestController RequestMapping RequestParam RequestParam RequestBody PathVariable RequestPart 参数传递注意事项编辑参数重命名 RequestParam 编辑编辑传递集合 RequestParam 传递JSON数据编辑RequestBody …...

编程新知 2026/2/1 16:32:53

深入解析C++中的extern关键字：跨文件共享变量与函数的终极指南

🚀 C extern 关键字深度解析：跨文件编程的终极指南 📅 更新时间：2025年6月5日 🏷️ 标签：C | extern关键字 | 多文件编程 | 链接与声明 | 现代C 文章目录前言🔥一、extern 是什么？&…...

编程新知 2026/2/1 6:50:07

智能分布式爬虫的数据处理流水线优化：基于深度强化学习的数据质量控制

在数字化浪潮席卷全球的今天，数据已成为企业和研究机构的核心资产。智能分布式爬虫作为高效的数据采集工具，在大规模数据获取中发挥着关键作用。然而，传统的数据处理流水线在面对复杂多变的网络环境和海量异构数据时，常出现数据质…...

编程新知 2026/2/6 1:04:23

laravel8+vue3.0+element-plus搭建方法

创建 laravel8 项目 composer create-project --prefer-dist laravel/laravel laravel8 8.* 安装 laravel/ui composer require laravel/ui 修改 package.json 文件 "devDependencies": {"vue/compiler-sfc": "^3.0.7","axios": …...

编程新知 2025/10/15 0:25:46

音视频——I2S 协议详解

I2S 协议详解 I2S (Inter-IC Sound) 协议是一种串行总线协议，专门用于在数字音频设备之间传输数字音频数据。它由飞利浦（Philips）公司开发，以其简单、高效和广泛的兼容性而闻名。 1. 信号线 I2S 协议通常使用三根或四根信号线&a…...

编程新知 2026/2/1 2:08:53

springboot 日志类切面，接口成功记录日志，失败不记录

springboot 日志类切面，接口成功记录日志，失败不记录自定义一个注解方法 import java.lang.annotation.ElementType; import java.lang.annotation.Retention; import java.lang.annotation.RetentionPolicy; import java.lang.annotation.Target;/***…...

编程新知 2026/2/1 13:59:09

任务目标

任务

难点

数据形式

图像呈现

文字描述

分析步骤

1、导入数据

存在问题

处理方法

处理结果

结果分析

语法扩展（别人的资料）

2、数据处理

2.1获取有效信息（扣表）

2.1.1思路分析

1、判断车次

2、处理表头

2.1.2解决方案

1、找表头

语法扩展

apply()、lambda

loc()

split()

expand参数

2、生成除表头外的信息表

3、生成一趟车的数据

语法扩展

loc、iloc区别

reset_index()

3、数据分析

3.1取表头信息表中所需数据

3.2把表头信息与每辆车挂钩

3.3、取所有站点

3.4循环所有站点取数据（用定位）

3.5整体操作（合并前面操作）

语法扩展

4、封装函数

5、数据导出

语法扩展

glob——查找文件

tpdm——进度条

enumerate() 函数

to_csv()

总体代码

相关文章：