当前位置：首页 > news >正文

基于机器学习的库存需求预测 -- 机器学习项目基础篇（12）

news 2026/2/9 5:22:18

在本文中，我们将尝试实现一个机器学习模型，该模型可以预测在不同商店销售的不同产品的库存量。

导入库和数据集

Python库使我们可以轻松地处理数据，并通过一行代码执行典型和复杂的任务。

Pandas -此库有助于以2D阵列格式加载数据帧，并具有多种功能，可一次性执行分析任务。
Numpy - Numpy数组非常快，可以在很短的时间内执行大型计算。
Matplotlib/Seaborn -这个库用于绘制可视化。
Sklearn -此模块包含多个库，这些库具有预实现的功能，以执行从数据预处理到模型开发和评估的任务。
XGBoost -这包含eXtreme Gradient Boosting机器学习算法，这是帮助我们实现高精度预测的算法之一。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn import metrics
from sklearn.svm import SVC
from xgboost import XGBRegressor
from sklearn.linear_model import LinearRegression, Lasso, Ridge
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error as maeimport warnings
warnings.filterwarnings('ignore')

现在，让我们将数据集加载到panda的数据框中，并打印它的前五行。

df = pd.read_csv('StoreDemand.csv')
display(df.head())
display(df.tail())

在这里插入图片描述
如我们所见，我们有10家商店和50种产品的5年数据，可以计算得，

(365 * 4 + 366) * 10 * 50 = 913000

现在让我们检查一下我们计算的数据大小是否正确。

df.shape

输出：

(913000, 4)

让我们检查数据集的每列包含哪种类型的数据。

df.info()

在这里插入图片描述
根据上面关于每列数据的信息，我们可以观察到没有空值。

df.describe()

在这里插入图片描述

特征工程

有时候，同一个特征中提供了多个特征，或者我们必须从现有的特征中派生一些特征。我们还将尝试在数据集中包含一些额外的功能，以便我们可以从我们拥有的数据中获得一些有趣的见解。此外，如果导出的特征是有意义的，那么它们将成为显著提高模型准确性的决定性因素。

parts = df["date"].str.split("-", n = 3, expand = True)
df["year"]= parts[0].astype('int')
df["month"]= parts[1].astype('int')
df["day"]= parts[2].astype('int')
df.head()

在这里插入图片描述
无论是周末还是工作日，都必须对满足需求的要求产生一定的影响。

from datetime import datetime
import calendardef weekend_or_weekday(year,month,day):d = datetime(year,month,day)if d.weekday()>4:return 1else:return 0df['weekend'] = df.apply(lambda x:weekend_or_weekday(x['year'], x['month'], x['day']), axis=1)
df.head()

在这里插入图片描述
如果有一个列可以表明某一天是否有任何假期，那就太好了。

from datetime import date
import holidaysdef is_holiday(x):india_holidays = holidays.country_holidays('IN')if india_holidays.get(x):return 1else:return 0df['holidays'] = df['date'].apply(is_holiday)
df.head()

在这里插入图片描述
现在，让我们添加一些周期特性。

df['m1'] = np.sin(df['month'] * (2 * np.pi / 12))
df['m2'] = np.cos(df['month'] * (2 * np.pi / 12))
df.head()

在这里插入图片描述
让我们有一个列，其值指示它是一周中的哪一天。

def which_day(year, month, day):d = datetime(year,month,day)return d.weekday()df['weekday'] = df.apply(lambda x: which_day(x['year'],x['month'],x['day']),axis=1)
df.head()

在这里插入图片描述
现在让我们删除对我们无用的列。

df.drop('date', axis=1, inplace=True)

可能还有一些其他相关的特征可以添加到这个数据集中，但是让我们尝试使用这些特征构建一个构建，并尝试提取一些见解。

探索性数据分析

EDA是一种使用可视化技术分析数据的方法。它用于发现趋势和模式，或在统计摘要和图形表示的帮助下检查假设。
我们使用一些假设向数据集添加了一些功能。现在让我们检查不同特征与目标特征之间的关系。

df['store'].nunique(), df['item'].nunique()

输出：

(10, 50)

从这里我们可以得出结论，有10个不同的商店，他们出售50种不同的产品。

features = ['store', 'year', 'month',\'weekday', 'weekend', 'holidays']plt.subplots(figsize=(20, 10))
for i, col in enumerate(features):plt.subplot(2, 3, i + 1)df.groupby(col).mean()['sales'].plot.bar()
plt.show()

在这里插入图片描述
现在让我们来看看随着月末的临近，库存的变化情况.

plt.figure(figsize=(10,5))
df.groupby('day').mean()['sales'].plot()
plt.show()

在这里插入图片描述
让我们画出30天的表现。

plt.figure(figsize=(15, 10))# Calculating Simple Moving Average 
# for a window period of 30 days
window_size = 30
data = df[df['year']==2013]
windows = data['sales'].rolling(window_size)
sma = windows.mean()
sma = sma[window_size - 1:]data['sales'].plot()
sma.plot()
plt.legend()
plt.show()

在这里插入图片描述
由于sales列中的数据是连续的，让我们检查它的分布，并检查该列中是否有一些离群值。

plt.subplots(figsize=(12, 5))
plt.subplot(1, 2, 1)
sb.distplot(df['sales'])plt.subplot(1, 2, 2)
sb.boxplot(df['sales'])
plt.show()

在这里插入图片描述
高度相关的特征

plt.figure(figsize=(10, 10))
sb.heatmap(df.corr() > 0.8,annot=True,cbar=False)
plt.show()

在这里插入图片描述
正如我们之前所观察到的，让我们删除数据中存在的离群值。

df = df[df['sales']<140]

模型训练

现在，我们将分离特征和目标变量，并将它们分为训练数据和测试数据，我们将使用这些数据来选择在验证数据上表现最好的模型。

features = df.drop(['sales', 'year'], axis=1)
target = df['sales'].valuesX_train, X_val, Y_train, Y_val = train_test_split(features, target,test_size = 0.05,random_state=22)
X_train.shape, X_val.shape

输出：

((861170, 9), (45325, 9))

在将数据输入机器学习模型之前对其进行标准化，有助于我们实现稳定和快速的训练。

# Normalizing the features for stable and fast training.
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_val = scaler.transform(X_val)

我们将数据分为训练数据和验证数据，并对数据进行了归一化。现在，让我们训练一些最先进的机器学习模型，并使用验证数据集从中选择最佳模型。

models = [LinearRegression(), XGBRegressor(), Lasso(), Ridge()]for i in range(4):models[i].fit(X_train, Y_train)print(f'{models[i]} : ')train_preds = models[i].predict(X_train)print('Training Error : ', mae(Y_train, train_preds))val_preds = models[i].predict(X_val)print('Validation Error : ', mae(Y_val, val_preds))

输出：

LinearRegression() : 
Training Error :  20.902897365994484
Validation Error :  20.97143554027027[08:31:23] WARNING: /workspace/src/objective/regression_obj.cu:152: 
reg:linear is now deprecated in favor of reg:squarederror.
XGBRegressor() : 
Training Error :  11.751541013057603
Validation Error :  11.790298395298885Lasso() : 
Training Error :  21.015028699769758
Validation Error :  21.071517213774968Ridge() : 
Training Error :  20.90289749951532
Validation Error :  20.971435731904066

基于机器学习的库存需求预测 -- 机器学习项目基础篇（12）

在本文中，我们将尝试实现一个机器学习模型，该模型可以预测在不同商店销售的不同产品的库存量。导入库和数据集 Python库使我们可以轻松地处理数据，并通过一行代码执行典型和复杂的任务。 Pandas -此库有助于以2D阵列格式加载数据帧&#…...

编程日记 2023/8/11 0:45:54

【D3S】集成smart-doc并同步配置到Torna

目录一、引言二、maven插件三、smart-doc.json配置四、smart-doc-maven-plugin相关命令五、推送文档到Torna六、通过Maven Profile简化构建一、引言 D3S（DDD with SpringBoot）为本作者使用DDD过程中开发的框架，目前已可公开查看源码&#…...

编程日记 2023/8/11 0:44:53

网络安全设备及部署

什么是等保定级？ 之前了解了下等保定级，接下里做更加深入的探讨文章目录一、网路安全大事件1.1 震网病毒1.2 海康威视弱口令1.3 物联网Mirai病毒1.4 专网黑天安事件1.5 乌克兰停电1.6 委内瑞拉电网1.7 棱镜门事件1.8 熊猫烧香二、法律法规解读三、安…...

编程日记 2023/8/11 0:43:52

LVS集群

目录 1、lvs简介： 2、lvs架构图： 3、 lvs的工作模式： 1） VS/NAT： 即（Virtual Server via Network Address Translation） 2）VS/TUN ：即（Virtual Server v…...

编程日记 2023/8/11 0:42:51

Kubernetes(K8s)从入门到精通系列之十二：安装和设置 kubectl

Kubernetes K8s从入门到精通系列之十二：安装和设置 kubectl 一、kubectl二、在 Linux 系统中安装并设置 kubectl1.准备工作2.用 curl 在 Linux 系统中安装 kubectl3.用原生包管理工具安装三、验证 kubectl 配置四、kubectl 的可选配置和插件1.启用 shell 自动补全功…...

编程日记 2023/8/11 0:41:50

探索 TypeScript 元组的用例

元组扩展了数组数据类型的功能。使用元组，我们可以轻松构造特殊类型的数组，其中元素相对于索引或位置是固定类型的。由于 TypeScript 的性质，这些元素类型在初始化时是已知的。使用元组，我们可以定义可以存储在数组中每个位置的数…...

编程日记 2023/8/11 0:40:49

Pytorch使用NN神经网络模型实现经典波士顿boston房价预测问题

Pytorch使用多层神经网络模型实现经典波士顿boston房价预测问题波士顿房价数据集介绍波士顿房价数据集是一个经典的机器学习数据集，用于预测波士顿地区房屋的中位数价格。该数据集包含了506个样本，每个样本有13个特征，包括城镇的各种指标&…...

编程日记 2023/8/11 0:39:48

微服务间消息传递

微服务间消息传递微服务是一种软件开发架构，它将一个大型应用程序拆分为一系列小型、独立的服务。每个服务都可以独立开发、部署和扩展，并通过轻量级的通信机制进行交互。应用开发 common模块中包含服务提供者和服务消费者共享的内容provider模块是…...

编程日记 2023/8/11 0:38:46

python——案例16：约瑟夫生者死者链队列

约瑟夫游戏的大意是：一条船上有30个人，因为在海上遇到风暴因此船长告诉乘客，必须牺牲15个人，并议定30个人围成一圈， 由第一个人数起，依次报数，数到第9人，便把他投入大海中&#xff…...

编程日记 2023/8/11 0:37:45

【人工智能前沿弄潮】—— 玩转SAM(Segment Anything)

玩转SAM(Segment Anything) 官网链接： Segment Anything | Meta AI (segment-anything.com) github链接： facebookresearch/segment-anything: The repository provides code for running inference with the SegmentAnything Model (SAM), links fo…...

编程日记 2023/8/11 0:36:44

每日一题——合并两个有序的数组

题目给出一个有序的整数数组 A 和有序的整数数组 B ，请将数组 B 合并到数组 A 中，变成一个有序的升序数组数据范围：0≤n,m≤100，∣Ai∣<100，∣Bi∣<100 注意： 1.保证 A 数组有足够的空间存放 B …...

编程日记 2023/8/11 0:35:42

MPP架构和Hadoop架构的区别

1. 架构的介绍 mpp架构是将许多数据库通过网络连接起来，相当于将一个个垂直系统横向连接，形成一个统一对外的服务的分布式数据库系统。每个节点由一个单机数据库系统独立管理和操作该物理机上的的所有资源（CPU，内存等&#xff09…...

编程日记 2023/8/11 0:34:41

Java02-迭代器，数据结构,List,Set ,Map,Collections工具类

目录什么是遍历？ 一、Collection集合的遍历方式 1.迭代器遍历方法流程案例 2. foreach（增强for循环）遍历案例 3.Lamdba表达式遍历案例二、数据结构数据结构介绍常见数据结构栈（Stack） 队列&a…...

编程日记 2023/8/11 0:33:41

福布斯发布2023云计算100强榜单，全球流程挖掘领导者Celonis排名17

近日，全球流程挖掘领导者Celonis入选福布斯2023 年云计算 100 强榜单，估值130亿美元，排名第17，Celonis已经是连续三年跻身榜单前20名。本次榜单由福布斯与Bessemer Venture Partners和Salesforce Ventures联合发布，旨…...

编程日记 2023/8/11 0:32:39

计算机网络 MAC地址

...

编程日记 2023/8/11 0:31:38

Jay17 2023.8.10日报

笔记【python反序列化】序列化类对象->字节流（字符串） 反序列化字节流->对象 python反序列化没PHP这么灵活，没这么多魔术方法。 import pickle import os class ctfshow(): def init(self): self.username0 self.password0 d…...

编程日记 2023/8/11 0:30:37

Winform中DatagridView 表头实现一个加上一个checkBox，实现全选选项功能

实现效果点击checkBox1或者直接在第一列列表头点击即可实现代码实现我的datagridview叫dgv 我在datagridview已经默认添加了一个DataGridViewCheckBoxColumn，勾选时value为1，不勾选时value为0 第一种通过可视化拖动一个checkBox来实现拖动组…...

编程日记 2023/8/11 0:29:37

rust基础

这是笔者学习rust的学习笔记（如有谬误，请君轻喷） 参考视频： https://www.bilibili.com/video/BV1hp4y1k7SV参考书籍：rust程序设计语言：https://rust.bootcss.com/title-page.htmlmarkdown地址：h…...

编程日记 2023/8/11 0:28:34

剑指offer39.数组中出现次数超过一半的数字

这个题非常简单，解法有很多种，我用的是HashMap记录每个元素出现的次数，只要次数大于数组长度的一半就返回。下面是我的代码： class Solution {public int majorityElement(int[] nums) {int len nums.length/2;HashMap<Integ…...

编程日记 2023/8/11 0:27:33

spring技术栈面试题

1 Spring支持的事务管理类型有哪些？你在项目中使用哪种方式？ Spring支持两种类型的事务管理： 编程式事务管理：这意味你通过编程的方式管理事务，给你带来极大的灵活性，但是难维护。声明式事务管理&#x…...

编程日记 2023/8/11 0:26:32

TDengine 快速体验（Docker 镜像方式）

简介 TDengine 可以通过安装包、Docker 镜像及云服务快速体验 TDengine 的功能，本节首先介绍如何通过 Docker 快速体验 TDengine，然后介绍如何在 Docker 环境下体验 TDengine 的写入和查询功能。如果你不熟悉 Docker，请使用安装包的方式快…...

编程新知 2026/2/8 20:41:53

IGP（Interior Gateway Protocol，内部网关协议）

IGP（Interior Gateway Protocol，内部网关协议） 是一种用于在一个自治系统（AS）内部传递路由信息的路由协议，主要用于在一个组织或机构的内部网络中决定数据包的最佳路径。与用于自治系统之间通信的 EGP&…...

编程新知 2025/10/12 11:54:26

线程与协程

1. 线程与协程 1.1. “函数调用级别”的切换、上下文切换 1. 函数调用级别的切换 “函数调用级别的切换”是指：像函数调用/返回一样轻量地完成任务切换。举例说明： 当你在程序中写一个函数调用： funcA() 然后 funcA 执行完后返回&…...

编程新知 2025/10/31 17:25:40

渗透实战PortSwigger靶场-XSS Lab 14：大多数标签和属性被阻止

编程新知 2026/1/24 13:05:24

2.Vue编写一个app

1.src中重要的组成 1.1main.ts // 引入createApp用于创建应用 import { createApp } from "vue"; // 引用App根组件 import App from ./App.vue;createApp(App).mount(#app)1.2 App.vue 其中要写三种标签 <template>  </template>…...

编程新知 2026/1/31 6:04:01

分布式增量爬虫实现方案

之前我们在讨论的是分布式爬虫如何实现增量爬取。增量爬虫的目标是只爬取新产生或发生变化的页面，避免重复抓取，以节省资源和时间。在分布式环境下，增量爬虫的实现需要考虑多个爬虫节点之间的协调和去重。另一种思路：将增量判…...

编程新知 2026/2/6 1:18:56

ABAP设计模式之---“简单设计原则(Simple Design)”

“Simple Design”（简单设计）是软件开发中的一个重要理念，倡导以最简单的方式实现软件功能，以确保代码清晰易懂、易维护，并在项目需求变化时能够快速适应。其核心目标是避免复杂和过度设计，遵循“让事情保…...

编程新知 2026/1/27 18:13:23

九天毕昇深度学习平台 | 如何安装库？

pip install 库名 -i https://pypi.tuna.tsinghua.edu.cn/simple --user 举个例子： 报错 ModuleNotFoundError: No module named torch 那么我需要安装 torch pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple --user pip install 库名&#x…...

编程新知 2026/1/31 2:13:57

FFmpeg：Windows系统小白安装及其使用

一、安装 1.访问官网 Download FFmpeg 2.点击版本目录 3.选择版本点击安装注意这里选择的是【release buids】，注意左上角标题例如我安装在目录 F:\FFmpeg 4.解压 5.添加环境变量把你解压后的bin目录（即exe所在文件夹）加入系统变量…...

编程新知 2026/1/31 14:34:46

深入浅出Diffusion模型：从原理到实践的全方位教程

I. 引言：生成式AI的黎明 – Diffusion模型是什么？ 近年来，生成式人工智能（Generative AI）领域取得了爆炸性的进展，模型能够根据简单的文本提示创作出逼真的图像、连贯的文本，乃至更多令人惊叹的…...

编程新知 2025/9/12 5:25:46

导入库和数据集

特征工程

探索性数据分析

模型训练

相关文章：