当前位置：首页 > news >正文

《机器学习在车险定价中的应用》实验报告

news 2026/6/5 3:43:14

一、实验题目

机器学习在车险定价中的应用

二、实验设置

1. 操作系统：

2. IDE：

3. python：

4. 库：

三、实验内容

实验前的猜想：

四、实验结果

1. 数据预处理及数据划分

独热编码处理结果（以地区为例）

2. 模型训练

3. 绘制初始决策树

4. 模型评价

5. 模型优化

绘制优化后的决策树

6. 修改样本、网格搜索参数进一步优化模型

五、实验分析

一、实验题目

机器学习在车险定价中的应用

二、实验设置

1. 操作系统：

Windows 11 Home

2. IDE：

PyCharm 2022.3.1 (Professional Edition)

3. python：

3.8.0

4. 库：

numpy	1.20.0
matplotlib	3.7.1
pandas	1.1.5
scikit-learn	0.24.2

conda create -n ML python==3.8 pandas scikit-learn numpy matplotlib

三、实验内容

本次实验使用决策树模型进行建模，实现对车险数据的分析，车险数据为如下MTPLdata.csv数据集：

该车险数据集包含了50万个样本，每个样本有8个特征和1个标签。其中，标签是一个二元变量，值为0或1，表示车主是否报告过车险索赔（clm，int64）；特征包括车主的年龄（age，int64），车辆的年限（ac，int64）、功率（power，int64）、燃料类型（gas，object）、品牌（brand，object），车主所在地区（area，object）、居住地车辆密度（dens，int64）、以及汽车牌照类型（ct，object）。

实验前的猜想：

详见实验报告

四、实验结果

1. 数据预处理及数据划分

将数据读入并进行数据预处理，包括哑变量处理和划分训练集和测试集

MTPLdata = pd.read_csv('MTPLdata.csv')
# 哑变量处理-独热编码
# 将clm列的数据类型转换为字符串
MTPLdata['clm'] = MTPLdata['clm'].map(str)
# 选择包括第1、2、3、4、5、6、7、8列的数据作为特征输入
# ac、brand、age、gas、power
X_raw = MTPLdata.iloc[:, [0, 1, 2, 3, 4]]
# X_raw = MTPLdata.iloc[:, [0, 1, 2, 3, 4, 5, 6, 7]]
# 对X进行独热编码
X = pd.get_dummies(X_raw)
# 选择第9列作为标签y
y = MTPLdata.iloc[:, 8]# 将数据划分为训练集和测试集，测试集占总数据的20%
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.2, random_state=1)

独热编码处理结果（以地区为例）

2. 模型训练

我们使用决策树分类器模型进行训练（设定树的最大深度为2，使用平衡的类权重，并默认使用基尼系数检验准确度）。

model = DecisionTreeClassifier(max_depth=2, class_weight='balanced', random_state=123)
model.fit(X_train, y_train)     # 数据拟合
model.score(X_test, y_test)     # 在测试集上评估模型

3. 绘制初始决策树

为了更好地解读决策树模型，调用plot_tree函数绘制决策树。

plt.figure(figsize=(11, 11))
plot_tree(model, feature_names=X.columns, node_ids=True, rounded=True, precision=2)
plt.show()

4. 模型评价

pred = model.predict(X_test)
table = pd.crosstab(y_test, pred, rownames=['Actual'], colnames=['Predicted'])
# table# 计算模型的准确率、错误率、召回率、特异度和查准率
table = np.array(table)  # 将pandas DataFrame转换为numpy array
Accuracy = (table[0, 0] + table[1, 1]) / np.sum(table)      # 准确率
Error_rate = 1 - Accuracy  # 错误率
Sensitivity = table[1, 1] / (table[1, 0] + table[1, 1])     # 召回率
Specificity = table[0, 0] / (table[0, 0] + table[0, 1])     # 特异度
Recall = table[1, 1] / (table[0, 1] + table[1, 1])          # 查准率

5. 模型优化

为了寻找更优的模型，我们使用cost_complexity_pruning_path函数计算不同的ccp_alpha对应的决策树的叶子节点总不纯度，并绘制ccp_alpha与总不纯度之间的关系图。

model = DecisionTreeClassifier(class_weight='balanced', random_state=123)
path = model.cost_complexity_pruning_path(X_train, y_train)
plt.plot(path.ccp_alphas, path.impurities, marker='o', drawstyle='steps-post')
plt.xlabel('alpha (cost-complexity parameter)')
plt.ylabel('Total Leaf Impurities')
plt.title('Total Leaf Impurities vs alpha for Training Set')
plt.show()

1w样本 50w样本

接着，我们通过交叉验证选择最优的ccp_alpha，并使用最优的ccp_alpha重新训练模型。

绘制优化后的决策树

rangeccpalpha = np.linspace(0.000001, 0.0001, 10, endpoint=True)
param_grid = {'max_depth':  np.arange(3, 7, 1),# 'ccp_alpha': rangeccpalpha,'min_samples_leaf': np.arange(1, 5, 1)
}
kfold = StratifiedKFold(n_splits=10, shuffle=True, random_state=1)
model = GridSearchCV(DecisionTreeClassifier(class_weight='balanced', random_state=123),param_grid, cv=kfold)
model.fit(X_train, y_train)

此外，还计算了各个特征的重要性，并绘制了特征重要性图。

plt.figure(figsize=(20, 20))
sorted_index = model.feature_importances_.argsort()
plt.barh(range(X_train.shape[1]), model.feature_importances_[sorted_index])
plt.yticks(np.arange(X_train.shape[1]), X_train.columns[sorted_index])
plt.xlabel('Feature Importance')
plt.ylabel('Feature')
plt.title('Decision Tree')
plt.tight_layout()
plt.show()

6. 修改样本、网格搜索参数进一步优化模型

详见实验报告

五、实验分析

请下载本实验对应的代码及实验报告资源（其中实验分析部分共2页、1162字）

《机器学习在车险定价中的应用》实验报告

目录一、实验题目机器学习在车险定价中的应用二、实验设置 1. 操作系统： 2. IDE： 3. python： 4. 库： 三、实验内容实验前的猜想： 四、实验结果 1. 数据预处理及数据划分独热编码处理结果（以…...

编程日记 2023/8/28 13:36:14

14. Docker中实现CI和CD

目录 1、前言 2、什么是CI/CD 3、部署Jenkins 3.1、下载Jenkins 3.2、启动Jenkins 3.3、访问Jenkins页面 4、Jenkins部署一个应用 5、Jenkins实现Docker应用的持续集成和部署 5.1、创建Dockerfile 5.2、集成Jenkins和Docker 6、小结 1、前言持续集成(CI/CD)是一种…...

编程日记 2023/8/28 13:35:13

【多思路解决喝汽水问题】1瓶汽水1元，2个空瓶可以换一瓶汽水，给20元，可以喝多少汽水

题目内容喝汽水问题喝汽水，1瓶汽水1元，2个空瓶可以换一瓶汽水，给20元，可以喝多少汽水（编程实现）。题目分析数学思路分析根据给出的问题和引用内容，我们可以得出答案。首先&#xff…...

编程日记 2023/8/28 13:34:12

P1591 阶乘数码(Java高精度)

题目描述求 n ! n! n! 中某个数码出现的次数。输入格式第一行为 t ( t ≤ 10 ) t(t \leq 10) t(t≤10)，表示数据组数。接下来 t t t 行，每行一个正整数 n ( n ≤ 1000 ) n(n \leq 1000) n(n≤1000) 和数码 a a a。输出格式对于每组数据&a…...

编程日记 2023/8/28 13:33:11

Mybatis的动态SQL及关键属性和标识的区别(对SQL更灵活的使用)

（ 虽然文章中有大多文本内容，想了解更深需要耐心看完，必定大有受益 ） 目录一、动态SQL ( 1 ) 是什么 ( 2 ) 作用 ( 3 ) 优点 ( 4 ) 特殊标签 ( 5 ) 演示二、#和$的区别 2.1 #使用 ( 1 ) #占位符语法 ( 2 ) #优点 2.…...

编程日记 2023/8/28 13:32:10

mysql下载

网址 MySQL :: Download MySQL Community Serverhttps://dev.mysql.com/downloads/mysql/ 2、选择MSI进行安装 3、这里我选择离线安装 4、这里我选择直接下载 5、等待下载安装即可...

编程日记 2023/8/28 13:31:09

聚合函数与窗口函数

聚合函数回答一聚合函数（Aggregate Functions）是SQL中的函数，用于对一组数据进行计算，并返回单个结果。聚合函数通常用于统计和汇总数据，包括计算总和、平均值、计数、最大值和最小值等。以下是一些常见的聚合函…...

编程日记 2023/8/28 13:30:08

c语言实现堆

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、树1、树的概念2、树的相关概念3、树的表示二、二叉树1、二叉树概念2、特殊的二叉树3、二叉树的性质4、二叉树的顺序结构5、二叉树的链式结构三、堆(二叉树…...

编程日记 2023/8/28 13:29:05

ubuntu 如何将文件打包成tar.gz

要将文件打包成.tar.gz文件，可以使用以下命令： tar -czvf 文件名.tar.gz 文件路径其中，-c表示创建新的归档文件，-z表示使用gzip进行压缩，-v表示显示详细的打包过程，-f表示指定归档文件的名称。例如&am…...

编程日记 2023/8/28 13:28:04

前端优化页面加载速度的方法（持续更新）

提速方法方向延迟脚本加载使用 async 属性： 在这种方法中，脚本将在下载完成后立即执行，而不会阻塞其他页面资源的加载和渲染。这适用于那些不依赖于其他脚本和页面内容的脚本，例如分析脚本等。示例如下： html …...

编程日记 2023/8/28 13:27:03

利用SSL证书的SNI特性建立自己的爬虫ip服务器

今天我要和大家分享一个关于自建多域名HTTPS爬虫ip服务器的知识，让你的爬虫ip服务器更加强大！无论是用于数据抓取、反爬虫还是网络调试，自建一个支持多个域名的HTTPS爬虫ip服务器都是非常有价值的。本文将详细介绍如何利用SSL证书的SNI&#…...

编程日记 2023/8/28 13:26:02

HTML和CSS

HTML HTML(Hyper Text Markup Language):超文本语言超文本：超越了文本的限制，比普通文本更强大。除了文字信息，还可以定义图片、音频、视频等内容。标记语言：由标签构成的语言 HTML标签都是预定义好的。例如：使用&l…...

编程日记 2023/8/28 13:25:01

C#的IndexOf

在 C# 中，IndexOf 是一个字符串、数组或列表的方法，用于查找指定元素的第一个匹配项的索引。它返回一个整数值，表示匹配项在集合中的位置，如果未找到匹配项，则返回 -1。 IndexOf 方法有多个重载形式，可以根…...

编程日记 2023/8/28 13:23:59

深度学习2.神经网络、机器学习、人工智能

目录深度学习、神经网络、机器学习、人工智能的关系大白话解释深度学习传统机器学习 VS 深度学习深度学习的优缺点 4种典型的深度学习算法卷积神经网络 – CNN 循环神经网络 – RNN 生成对抗网络 – GANs 深度强化学习 – RL 总结深度学习深度学习、神经网络…...

编程日记 2023/8/28 13:22:58

利用LLM模型微调的短课程；钉钉宣布开放智能化底座能力

🦉 AI新闻 🚀 钉钉宣布开放智能化底座能力AI PaaS，推动企业数智化转型发展摘要：钉钉在生态大会上宣布开放智能化底座能力AI PaaS，与生态伙伴探寻企业服务的新发展道路。AI PaaS结合5G、云计算和人工智能技术的普及和…...

编程日记 2023/8/28 13:21:56

软件工程(七) UML之用例图详解

1、UML-4+1视图 UML-4+1视图将会与后面的架构4+1视图会一一对应上视图往往出现在什么场景：我们看待一个事物，我们觉得它很复杂，难以搞清楚，为了化繁为简，我们会从一个侧面去看，这就是视图。而4+1视图就是分不同角度去看事物。逻辑视图（logical view）一般使用类与对…...

编程日记 2023/8/28 13:20:55

pd.cut()函数--Pandas

1. 函数功能将连续性数值进行离散化处理：如对年龄、消费金额等进行分组 2. 函数语法 pandas.cut(x, bins, rightTrue, labelsNone, retbinsFalse, precision3, include_lowestFalse, duplicatesraise, orderedTrue)3. 函数参数参数含义x要离散分箱操作的数组&…...

编程日记 2023/8/28 13:19:53

DataBinding的基本使用

目录一、MVC、MVP和MVVM框架的使用场景二、Java使用一、MVC、MVP和MVVM框架的使用场景 MVC： 适用于小型项目，够灵活， 缺点：Activity不仅要做View的事情还要做控制和模型的处理，导致Activity太过臃肿，管理…...

编程日记 2023/8/28 13:18:53

eslint和prettier格式化冲突

下载插件 ESLint 和 Prettier ESLint 进入setting.json中 setting.json中配置 {"editor.tabSize": 2,"editor.linkedEditing": true,"security.workspace.trust.untrustedFiles": "open","git.autofetch": true,"…...

编程日记 2023/8/28 13:17:51

matlab使用教程(26)—常微分方程的求解

1.求解非刚性 ODE 本页包含两个使用 ode45 来求解非刚性常微分方程的示例。MATLAB 提供几个非刚性 ODE 求解器。 • ode45 • ode23 • ode78 • ode89 • ode113 对于大多数非刚性问题，ode45 的性能最佳。但对于允许较宽松的误差容限或刚度适中的问题&…...

编程日记 2023/8/28 13:16:50

Blender渲染通道完全指南：如何像电影后期一样，分离出深度、阴影与反射图

Blender渲染通道完全指南：影视级后期制作的深度解析在数字内容创作领域，Blender已经从一个简单的3D建模工具成长为能够处理复杂视觉特效的全流程解决方案。对于追求影视级质量的中高级用户而言，掌握渲染通道技术是提升作品专业度的关键一步。…...

编程新知 2026/5/26 2:43:41

智慧无人机巡检-无人机可见光红外数据集无人机多模态检测数据集红外与可见光检测数据集

智慧无人机巡检-无人机可见光红外数据集，已完成标注，可导出各种常用数据集，yolo，voc，coco等格式。可见光33000张，红外16100张，目标一张一个无人机可见光红外目标数据集项目详细信息数据集名称无…...

编程新知 2026/5/26 1:27:06

别再只测accuracy！DeepSeek集成测试必须监控的5个隐性指标（P99首token延迟、context bleed率、tool-call schema漂移）

更多请点击： https://intelliparadigm.com 第一章：DeepSeek集成测试的核心范式演进 DeepSeek大模型的工程化落地对集成测试提出了全新挑战：传统基于接口响应码与字段校验的测试范式已难以覆盖语义一致性、推理链鲁棒性、上下文敏感度等高阶质…...

编程新知 2026/5/26 0:42:31

3步解锁网易云音乐NCM加密：让音乐真正属于你

3步解锁网易云音乐NCM加密：让音乐真正属于你【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 还在为下载的网易云音乐只能在特定客户端播放而烦恼吗？当你精心收藏的歌曲被NCM格式"锁"在单一平台时&a…...

编程新知 2026/5/26 0:16:08

PCB的常规机械通孔与HDI工艺钻孔差异

结合常规 4 层通孔 PCB（非 HDI） 标准制程，分步骤讲清钻孔时机、先后顺序，区分机械通孔与板件结构，专业且贴合工厂实际流程。一、先明确 4 层通孔板基础结构4 层板结构：L1 → PP 半固化片 → L2/L3&#xff…...

编程新知 2026/5/25 21:43:58

全球无障碍宣传日：iOS 26 辅助功能大升级，这些实用小功能你用过吗？

辅助功能发展与升级很多人对辅助功能的印象还停留在 "小白点"，但随着 iPhone 进入全面屏时代，它逐渐变得陌生。实际上，Apple 每年都会为其增添功能，方便身体有障人士使用 iPhone。而且，这些功能不仅惠及有障…...

编程新知 2026/5/25 21:07:31

氘可来昔替尼常见副作用为鼻咽炎头痛及腹泻，如何应对？

任何口服药物的临床价值，都必须在疗效与安全性的天平上找到精准的平衡点。氘可来昔替尼以PASI 75应答率的全面胜出证明了自己在银屑病治疗中的卓越地位，而其不良反应谱同样经过了严苛的临床验证。鼻咽炎、头痛和腹泻构成了这款药物最需关注的三大安全信号…...

编程新知 2026/5/25 20:57:14

基于树莓派打造万能遥控器：从硬件选型到Web控制界面全解析

1. 项目概述：打造一个能“学习”的万能遥控器家里遥控器越来越多，电视、空调、风扇、灯带……每个设备都配一个，找起来麻烦，用起来也乱。市面上所谓的“万能遥控器”其实并不万能，它内置的码库有限，很多小众…...

编程新知 2026/5/25 20:11:56

别再只比参数了！从插件生态到中文优化，聊聊ChatGPT和文心一言的“隐形”差异

超越参数之争：ChatGPT与文心一言的生态与本土化实战解析当技术评测文章还在反复比较模型参数量与发布时间时，真正影响日常工作效率的往往是那些未被量化的"软实力"。本文将从插件生态构建与中文场景优化两个维度，带您重新认识这两…...

编程新知 2026/5/25 20:07:55

别再瞎拖拽了！Unity Prefab从创建到批量修改的保姆级工作流（含变体与嵌套实战）

Unity Prefab高效工作流：从创建到批量修改的实战指南在Unity项目开发中，Prefab（预制体）是最基础也最强大的工具之一。但很多开发者，尤其是初学者，往往停留在简单的"拖拽-修改"阶段，没…...

编程新知 2026/5/25 18:50:50

一、实验题目

机器学习在车险定价中的应用

二、实验设置

1. 操作系统：

2. IDE：

3. python：

4. 库：

三、实验内容

实验前的猜想：

四、实验结果

1. 数据预处理及数据划分

独热编码处理结果（以地区为例）

2. 模型训练

3. 绘制初始决策树

4. 模型评价

5. 模型优化

绘制优化后的决策树

6. 修改样本、网格搜索参数进一步优化模型

五、实验分析

相关文章：