当前位置：首页 > news >正文

头歌-机器学习第13次实验特征工程——共享单车之租赁需求预估

news 2026/2/8 12:06:25

第1关：数据探索与可视化

任务描述

本关任务：编写python代码，完成一天中不同时间段的平均租赁数量的可视化功能。

编程要求

根据提示，在右侧编辑器Begin-End处补充代码，将./step1/bike_train.csv中的数据按照hour这个特征分组，然后求每一组的count的平均值。并使用matplotlib.pyplot绘制折线图，并保存到./step1/result/plot.png。

测试说明

平台会对你生成的折线图与正确答案进行比对，因此请按照以下要求可视化：

折线图的figsize为(10, 10)
折线图的标题为average count per hour

测试输入：预期输出：你的答案与正确答案一致

import pandas as pd
import matplotlib
matplotlib.use('Agg')
import matplotlib.pyplot as plt#********* Begin *********#
import pandas as pdimport matplotlib.pyplot as plttrain_df = pd.read_csv('./step1/bike_train.csv')train_df['hour'] = train_df.datetime.apply(lambda x:x.split()[1].split(':')[0]).astype('int')group_hour=train_df.groupby(train_df.hour)hour_mean=group_hour[['count','registered','casual']].mean()fig=plt.figure(figsize=(10,10))plt.plot(hour_mean['count'])plt.title('average count per hour')plt.savefig('./step1/result/plot.png')#********* End *********#

第2关：特征工程

任务描述

本关任务：编写python代码，完成时间细化的功能。

细化后数据如下:

测试说明

平台会对你返回的DataFrame与答案进行比对，您只需实现transform_data即可。

测试输入：预期输出：你的答案与正确答案一致。

import pandas as pd
import numpy as np
from datetime import datetimedef transform_data(train_df):'''将train_df中的datetime划分成year、month、date、weekday、hour:param train_df:从bike_train.csv中读取的DataFrame:return:无'''#********* Begin *********#train_df['date'] = train_df.datetime.apply(lambda x:x.split()[0])train_df['hour'] = train_df.datetime.apply(lambda x:x.split()[1].split(':')[0]).astype('int')train_df['year'] = train_df.datetime.apply(lambda x:x.split()[0].split('-')[0]).astype('int')train_df['month'] = train_df.datetime.apply(lambda x: x.split()[0].split('-')[1]).astype('int')train_df['weekday'] = train_df.date.apply(lambda x: datetime.strptime(x, '%Y-%m-%d').isoweekday())return train_df#********* End **********#

第3关：租赁需求预估

任务描述

本关任务：编写python代码，实现租赁需求预估。

编程要求

根据提示，在右侧编辑器补充代码。代码主要任务如下：

读取./step3/bike_train.csv中的数据作为训练集，读取./step3/bike_test.csv中的数据作为测试集
将数据处理成你想要的样子
使用sklearn对训练集数据进行训练，并对测试集进行预测
将预测结果保存至./step3/result.csv

测试说明

平台会计算你保存的./step3/result.csv的r2 score。若r2 score高于0.95视为过关。

测试输入：预期输出：你的预测结果的r2 score高于0.95

PS:./step3/result.csv中需要两列。一列为datetime，另一列为count。其中datetime为./step3/bike_test.csv中的datetime，count为你的预测结果。如：

#********* Begin *********#  
import pandas as pd  
import numpy as np  
from datetime import datetime  
from sklearn.linear_model import Ridge
train_df = pd.read_csv('./step3/bike_train.csv')
# 舍弃掉异常count  
train_df=train_df[np.abs(train_df['count']-train_df['count'].mean())<=3*train_df['count'].std()]
# 训练集的时间数据处理
train_df['date']=train_df.datetime.apply(lambda x:x.split()[0])  
train_df['hour']=train_df.datetime.apply(lambda x:x.split()[1].split(':')[0]).astype('int')  
train_df['year']=train_df.datetime.apply(lambda x:x.split()[0].split('-')[0]).astype('int')  
train_df['month']=train_df.datetime.apply(lambda x:x.split()[0].split('-')[1]).astype('int')  
train_df['weekday']=train_df.date.apply( lambda x : datetime.strptime(x,'%Y-%m-%d').isoweekday())
# 独热编码  
train_df_back=train_df  
dummies_month = pd.get_dummies(train_df['month'], prefix='month')  
dummies_year = pd.get_dummies(train_df['year'], prefix='year')  
dummies_season = pd.get_dummies(train_df['season'], prefix='season')  
dummies_weather = pd.get_dummies(train_df['weather'], prefix='weather')
train_df_back = pd.concat([train_df, dummies_month,dummies_year, dummies_season,dummies_weather], axis = 1)
train_label = train_df_back['count']  
train_df_back = train_df_back.drop(['datetime', 'season', 'weather', 'atemp', 'date', 'month', 'count'], axis=1)
test_df = pd.read_csv('./step3/bike_test.csv')
# 测试集的时间数据处理  
test_df['date']=test_df.datetime.apply(lambda x:x.split()[0])  
test_df['hour']=test_df.datetime.apply(lambda x:x.split()[1].split(':')[0]).astype('int')  
test_df['year']=test_df.datetime.apply(lambda x:x.split()[0].split('-')[0]).astype('int')  
test_df['month']=test_df.datetime.apply(lambda x:x.split()[0].split('-')[1]).astype('int')  
test_df['weekday']=test_df.date.apply( lambda x : datetime.strptime(x,'%Y-%m-%d').isoweekday())
# 独热编码
test_df_back=test_df  
dummies_month = pd.get_dummies(test_df['month'], prefix='month')  
dummies_year = pd.get_dummies(test_df['year'], prefix='year')  
dummies_season = pd.get_dummies(test_df['season'], prefix='season')  
dummies_weather = pd.get_dummies(test_df['weather'], prefix='weather')
test_df_back = pd.concat([test_df, dummies_month,dummies_year, dummies_season,dummies_weather], axis = 1)  
test_df_back = test_df_back.drop(['datetime', 'season', 'weather', 'atemp', 'date', 'month'], axis=1)
clf = Ridge(alpha=1.0)
# 训练  
clf.fit(train_df_back, train_label)  
# 预测  
count = clf.predict(test_df_back)
# 保存结果  
result = pd.DataFrame({'datetime':test_df['datetime'], 'count':count})  
result.to_csv('./step3/result.csv', index=False)  
#********* End *********#

头歌-机器学习第13次实验特征工程——共享单车之租赁需求预估

第1关：数据探索与可视化任务描述本关任务：编写python代码，完成一天中不同时间段的平均租赁数量的可视化功能。相关知识为了完成本关任务，你需要掌握： 读取数据数据探索与可视化读取数据数据保存在./step1/…...

编程日记 2024/4/15 15:43:44

Unity 2D让相机跟随角色移动

相机跟随移动最简单的方式通过插件Cinemachine 在窗口/包管理器选择全部找到Cinemachine，导入。然后在游戏对象/Cinemachine创建2D Camera。此时层级中创建一个2D相机。选中人物拖入检查器Follow。此时相机跟随人物移动。修改相机视口距离在检查器中Lens下调正…...

编程日记 2024/4/15 15:41:41

【面试题】s += 1 和 s = s + 1的区别

文章目录 1.问题2.发现过程3.解析 1.问题以下两个程序真的完全等同吗？ short s 0; s 1; short s 0; s s 1; 2.发现过程初看s 1 和 s s 1好像是等价的，没有什么区别。很长一段时间内我也是这么觉得，因为当时学习c语言的时候教科书…...

编程日记 2024/4/15 15:40:39

ARM的学习

点亮流水灯 .text .global _start _start: 使能GPIOE的外设时钟 RCC_MP_AHB4ENSETR 0x50000a28 [4]->1LDR R0,0X50000A28 指定基地址LDR R1,[R0] 将寄存器数据读取出来保存到R1中ORR R1,R1,#(0x3<<4) [4]设置为1ORR R1,R1,#(0x3<<5) [5]设置为1STR …...

编程日记 2024/4/15 15:37:36

Restful API接口规范(以Django为例)

Restful API接口规范(以Django为例) Restful API的接口架构风格中制定了一些规范，极大的简化了前后端对接的时间，以及增加了开发效率安全性保证–使用https路径中带 api标识路径中带版本号数据即资源，通常使用名词操作请求方式决定操作资源…...

编程日记 2024/4/15 15:36:34

AI助力，程序员压力倍增？

讲动人的故事，写懂人的代码你知道程序员现在在AI辅助编程时最头疼的事情是什么吗？就是怎么在改代码的时候保住小命。大家都听过程序员因为工作太累导致过劳湿的事情。无论是写新功能、修bug，还是更改系统配置，都得改代码。现在有了AI的帮助，本应该轻松很多，为什么…...

编程日记 2024/4/15 15:35:27

论文：LoRA: Low-Rank Adaptation of Large Language Models 实现：microsoft/LoRA: Code for loralib, an implementation of “LoRA: Low-Rank Adaptation of Large Language Models” (github.com) 摘要自然语言处理的一个重要的开发范式包括&#…...

编程日记 2024/4/15 15:33:23

45.基于SpringBoot + Vue实现的前后端分离-驾校预约学习系统（项目 + 论文）

项目介绍本站是一个B/S模式系统，采用SpringBoot Vue框架，MYSQL数据库设计开发，充分保证系统的稳定性。系统具有界面清晰、操作简单，功能齐全的特点，使得基于SpringBoot Vue技术的驾校预约学习系统设计与实现管理工作…...

编程日记 2024/4/15 15:31:21

系统思考—时间滞延

“没有足够的时间是所有管理问题的一部分。”——彼得德鲁克鱼和熊掌可以兼得，但并不能同时获得。在提出系统解决方案时，我们必须认识到并考虑到解决方案的实施通常会有必要的时间滞延。这种延迟有时比我们预想的要长得多，特别是当方案涉及…...

编程日记 2024/4/15 15:28:17

SSM项目转Springboot项目

SSM项目转Springboot项目由于几年前写的一个ssm项目想转成springboot项目，所以今天倒腾了一下。最近有人需要毕业设计转换一下，所以我有时间的话可以有偿帮忙转换，需要的私信我或＋v：Arousala_ 首先创建一个新的spr…...

编程日记 2024/4/15 15:27:15

VUE3.0对比VUE2.0

vue3.0 与 vue2.0的不同之处有以下几点： 数据响应式原理 3.0基于Proxy的代理实现监测，vue2.0是基于Object.defineProperty实现监测。 vue2.0 通过Object.defineProperty，每个数据属性被定义成可观察的，具有getter和setter方法&…...

编程日记 2024/4/15 15:26:14

车内AR互动娱乐解决方案，打造沉浸式智能座舱体验

美摄科技凭借其卓越的创新能力，为企业带来了革命性的车内AR互动娱乐解决方案。该方案凭借自研的AI检测和渲染引擎，打造出逼真的数字形象，不仅丰富了车机娱乐内容，更提升了乘客与车辆的互动体验，让每一次出行都成为一场…...

编程日记 2024/4/15 15:24:11

OR36 链表的回文结构

描述对于一个链表，请设计一个时间复杂度为O(n),额外空间复杂度为O(1)的算法，判断其是否为回文结构。给定一个链表的头指针A，请返回一个bool值，代表其是否为回文结构。保证链表长度小于等于900。测试样例： 1->…...

编程日记 2024/4/15 15:20:05

【译】微调与人工引导：语言模型调整中的 SFT 和 RLHF

原文地址：Fine-Tuning vs. Human Guidance: SFT and RLHF in Language Model Tuning 本文主要对监督微调（SFT, Supervised Fine Tuning ）和人类反馈强化学习（RLHF, Reinforcement Learning from Human Feedback）进行简…...

编程日记 2024/4/15 15:19:04

kylin java.io.IOException: error=13, Permission denied

linux centos7.8 error13, Permission denied_linux open error13-CSDN博客 chmod -R 777 /home/zengwenfeng/kkFileView-4.2.1 2024-04-15 13:15:17.416 WARN 3400 --- [er-offprocmng-1] o.j.l.office.LocalOfficeProcessManager : An I/O error prevents us to determine…...

编程日记 2024/4/15 15:17:02

第1关：数据探索与可视化

任务描述

相关知识

读取数据

数据探索与可视化

编程要求

测试说明

第2关：特征工程

任务描述

相关知识

相关性分析

选择特征

编程要求

测试说明

第3关：租赁需求预估

任务描述

相关知识

独热编码

sklearn机器学习算法的使用

生成预测结果

编程要求

测试说明

相关文章：

`sklearn`机器学习算法的使用