当前位置：首页 > news >正文

01.机器学习引言

news 2026/3/20 7:22:15

1.机器学习的步骤

1. 数据搜集

其中数据划分，是将数据集分为训练集、验证集和测试集（通常不考虑时间）

2. 数据清洗

3. 特征工程

提取对象：原始数据（特征提取一般在特征选择之前）
提取目的：自动地构建新的特征，将原始数据转换为一组具有明显物理意义（例如，几何特征、纹理特征）或统计意义的特征
常用方法：
- 降维方面：PCA、ICA、LDA等
- 图像方面：SIFT、Gabor、HOG等
- 文本方面：词袋模型、词嵌入模型等

注意：传统机器学习跟深度学习在特征提取的区别：

深度学习不需要去做特征工程，模型自己对数据做特征工程

4. 数据建模

4.1 模型分类：

概率模型：决策树、朴素贝叶斯、隐马尔科夫模型、高斯混合模型等
非概率模型：感知机、支持向量机、KNN、AdaBoost、K-means以及神经网络等

4.2`损失函数(衡量模型的好坏)`：

损失函数就是用来衡量模型预测结果跟真实数据之间的真值的。例如，平均损失函数（Quadratic Loss Function）L(Y,f(x)) = (Y- f(x))²，损失函数越小，模型性能越好。

所以我们在设定好一个模型之后，给定一个训练集，训练的目的就是去优化这个损失函数：

$\mathop {\min }\limits_f {1 \over N}\sum\limits_{i = 1}^n {L{{({y_i},f({x_i}))}}}$

4.3 优化算法

怎么求这个损失函数呢？怎求的具体算法就称为优化算法,现在主要的优化算法有：梯度下降法、牛顿法、拟牛顿法、ADAM等等。

4.4评价指标

(1).评测模型好坏的评价指标：

正确肯定（True Positive,TP）：预测为真，实际为真
正确否定（True Negative,TN）：预测为假，实际为假
错误肯定（False Positive,FP）：预测为真，实际为假
错误否定（False Negative,FN）：预测为假，实际为真

(2).参考指标

Accuracy (准确率) = $\over {TP + {\rm{TN}} + {\rm{FP + FN}}}}$

Precision(精确率) = $\over {TP + {\rm{FP}}}}$

Recall(召回率) = $\over {TP + {\rm{FN}}}}$

F1 score = $\times {\rm{Precision}} \times {\rm{Recall}}} \over {{\rm{Precision}} + {\rm{Recall}}}}$
3.

2.数据集

2.1 K折交叉验证

交叉验证既可以解决数据集的数据量不够大的问题，也可以解决参数调优的问题。

步骤：

1.使用训练集训出k个模型

2.用k个模型分别对交叉验证集计算得出交叉验证误差（代价函数的值）

3.选取代价函数值最小的模型

4.用步骤3中选出的模型对测试集计算，得出推广误差（代价函数的值）

2.2 数据集的不均衡

数据不平衡是指数据集中各类样本数量不均匀的情况。这种情况会给模型的训练带来很大的问题

平滑数据集分布不平衡的解决方法：

SMOTE (Synthetic Minority Over-sampling Technique)算法：在少样本的距离的中间再生成一个新的样本

3.机器学习分类

监督学习：输入的数据中有监督信息，以概率函数、代数函数或人工神经网络为基函数模型，采用迭代计算方法，学习结果为函数
无监督学习:输入数据中没有监督信息，采用聚类方法，学习结果为类别。典型的无监督学习有聚类，降维算法等。除此之外，还有自监督学习，半监督学习，对比学习等概念。
强化学习：以环境为反馈（奖/惩信号）作为输入，以统计和动态规划技术为指导的一种学习方法。

3.1 监督学习

分类（classfication）
回归(regression)

3.2 无监督

聚类（Clustering）
降维(Demensionality Reduction)

3.3 强化学习

用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

4.编程基础

编程语言：python、R
编程系统：Linux、anaconda
编程平台：jupyter notebook , vscode,pycharm
编程库：numpy,pandas,matplotlib,scikit-learn,pytorch,tensorflow

01.机器学习引言

1.机器学习的步骤 1. 数据搜集其中数据划分，是将数据集分为训练集、验证集和测试集（通常不考虑时间） 2. 数据清洗 3. 特征工程提取对象：原始数据（特征提取一般在特征选择之前） 提取目的：…...

编程日记 2023/8/22 16:28:02

结构型（二） - 桥接模式

一、概念桥接模式（Bridge Pattern）：是用于把抽象化与实现化解耦，使得二者可以独立变化。它通过提供抽象化和实现化之间的桥接结构，来实现二者的解耦。另一种理解方式：一个类存在两个（或多个…...

编程日记 2023/8/22 16:26:59

多维时序 | MATLAB实现WOA-CNN-GRU-Attention多变量时间序列预测

多维时序 | MATLAB实现WOA-CNN-GRU-Attention多变量时间序列预测目录多维时序 | MATLAB实现WOA-CNN-GRU-Attention多变量时间序列预测预测效果基本介绍模型描述程序设计参考资料预测效果基本介绍 MATLAB实现WOA-CNN-GRU-Attention多变量时间序列预测，WOA-CNN-GR…...

编程日记 2023/8/22 16:25:55

C#与西门子PLC1500的ModbusTcp服务器通信1--项目背景

最近在一个120万元的项目中，涉及到modbustcp通信，我作为软件总工负责项目的通信程序开发，modbus是一个在工业自动化领域中的通信协议，可以是modbusrtu，modbusascii，modbustcp三个形式，具体来说是…...

编程日记 2023/8/22 16:24:54

Socks5代理与IP代理：网络安全与爬虫之道

1. Socks5代理的多功能性 Socks5代理是一种支持TCP和UDP协议的代理技术，适用范围广泛。不同于传统HTTP代理，Socks5代理在传输数据时更为灵活，可以满足实时数据传输的需求，适用于在线游戏、视频流等场景。此外，Socks5代…...

编程日记 2023/8/22 16:23:52

苹果电脑怎么录屏？步骤详解，看到就是赚到

苹果电脑作为一款受欢迎的高性能设备，不仅在日常工作中发挥着重要作用，还可以用于创造内容，如录制屏幕内容。录屏功能能够帮助用户将屏幕上的活动记录成视频，方便分享、演示或存档。可是您知道苹果电脑怎么录屏吗？通过…...

编程日记 2023/8/22 16:22:51

vb毕业生管理系统设计与实现

【摘要】本毕业生管理系统是使用VB和ACCESS数据库为开发工具开发的一个全新的管理系统（MIS）。开发出的软件可以在任何一个装有VB环境的机器上运行。本毕业生管理系统包括六个子模块：用户登陆模块、学籍管理模块、学生成绩模块、毕业设计选题模块、毕业设计成绩管理模块、系…...

编程日记 2023/8/22 16:21:50

WPF入门到精通:4.页面增删改查及调用接口（待完善）

在WPF中，页面的增删改查可以通过使用DataGrid等控件来实现。接口的调用可以使用HttpClient或RestSharp等网络库来完成。 1.页面增删改查使用DataGrid控件来展示数据，并通过绑定数据源来实现数据的增删改查操作。示例代码如下： XAML代码&a…...

编程日记 2023/8/22 16:20:48

容器和云原生（三）：kubernetes搭建与使用

目录单机K8S docker containerd image依赖 kubeadm初始化验证 crictl工具 K8S核心组件上文安装单机docker是很简单docker，但是生产环境需要多个主机，主机上启动多个docker容器，相同容器会绑定形成1个服务service，微服务…...

编程日记 2023/8/22 16:19:46

spring boot集成jasypt 并实现自定义加解密

一. 技术需求由于项目中的配置文件配置的地方过多，现将配置文件统一放到nacos上集中管理且密码使用加密的方式放在配置文件中项目中组件使用的版本环境如下 spring cloud 2021.0.5 spring cloud alibaba 2021.0.5.0 spring boot 2.6.13 二. 技术实现配置文…...

编程日记 2023/8/22 16:18:45

Qt文件系统操作和文件的读写

一、文件操作类概述 QIODevice：所有输入输出设备的基础类 QFile：用于文件操作和文件数据读写的类QSaveFile：用于安全保存文件的类QTemporaryFile：用于创建临时文件的类QTcpSocket和QUdpSocket：分别实现了TCP和UDP的类…...

编程日记 2023/8/22 16:17:43

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

本文也是LLM系列相关文章，针对《MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models》的翻译。 MME:一个多模态大型语言模型的综合评估基准摘要1 引言2 MME评估套件3 实验4 分析5 结论摘要多模态大语言模型（MLLM&…...

编程日记 2023/8/22 16:16:41

学习开发振弦采集模块的注意事项

学习开发振弦采集模块的注意事项 （三河凡科科技/飞讯教学）振弦采集模块是一种用来实时采集和处理振弦信号的电子设备，在工业、航空、医疗等领域都有广泛应用。学习开发振弦采集模块需要注意以下几点： 一、硬件选择首先需要选择…...

编程日记 2023/8/22 16:15:40

抵御时代风险：高级安全策略与实践

目录网页篡改攻击流量攻击数据库攻击恶意扫描攻击域名攻击在今天的数字时代，网站已经成为企业、机构和个人展示信息、交流互动的重要平台。然而，随着网络攻击技术的不断进步，网站也面临着各种安全威胁。本文将探讨五种常见的网络攻…...

编程日记 2023/8/22 16:14:38

(3)、SpringCache源码分析

1、入口说明 @EnableCaching是开启SpringCache的一个总开关，开启时候我们的缓存相关注解才会生效，所以我们@EnableCaching开始作为入口进行分析， 2、分析@EnableCaching注解 @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Import(...

编程日记 2023/8/22 16:13:37

如何在 Ubuntu 中安装最新的 Python 版本

动动发财的小手，点个赞吧！ Python 是增长最快的主要通用编程语言。其原因有很多，例如其可读性和灵活性、易于学习和使用、可靠性和效率。目前使用的 Python 有两个主要版本 – 2 和 3（Python 的现在和未来）&#xff1…...

编程日记 2023/8/22 16:12:35

等保测评--安全物理环境--测评方法

安全子类--物理位置选择 a）机房场地应选择在具有防震、防风和防雨等能力的建筑内；一、测评对象记录类文档和机房二、测评实施 1)检查机房所在建筑物是否具有建筑物抗震设防审批文档； 2)检查机房门窗是否不存在因风导致的尘土严重； 3）检查机房是否不存在雨水渗漏…...

编程日记 2023/8/22 16:11:33

解决jmeter导入jmx文件报错方法

有的时候我们导入别人的jmx文件，但是在导入的时候会报错，如下图： 这是缺少jmeter插件jar包所引起的，下载对应jar包放到jmeter安装目录对应的lib/ext下就可以了。可以通过插件管理工具包下载安装，也可以直接下载对应的…...

编程日记 2023/8/22 16:10:32

CH32V307 开启浮点后rtthread的修改

官方版本是3.1.3，而且只有整数的，开启浮点后要做一些修改，这里问了官方并贴出来方便大家使用： 首先在mounriver开启浮点，步骤： 开启浮点：ide 开启float point->rvf, floating point abi->…...

编程日记 2023/8/22 16:09:30

网络面试题（172.22.141.231/26，该IP位于哪个网段？该网段拥有多少可用IP地址？广播地址是多少？）

此题面试中常被问到，一定要会172.22.141.231/26，该IP位于哪个网段？ 该网段拥有多少可用IP地址？广播地址是多少？ 解题思路： 网络地址：172.22.141.192 10101100.00010110.10001101.11000000 广播…...

编程日记 2023/8/22 16:08:27

终极Windows任务栏美化指南：如何用TranslucentTB实现桌面透明化

终极Windows任务栏美化指南：如何用TranslucentTB实现桌面透明化【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB 在Windows个性…...

编程新知 2026/3/20 6:56:58

嵌入式C静态分析工具选型终极决策树（含MISRA-2012/2023、AUTOSAR C++14子集、IEC 61508 SIL3适配矩阵）

第一章：嵌入式C静态分析工具选型指南嵌入式C开发对代码安全性、可移植性与资源约束敏感度极高，静态分析是保障固件质量的关键前置环节。选型需综合考量目标架构支持（如ARM Cortex-M系列）、MISRA C/ISO 26262等合规性覆盖能力、内存…...

编程新知 2026/3/20 4:23:51

网易云音乐插件一键安装指南：BetterNCM Installer 终极教程

网易云音乐插件一键安装指南：BetterNCM Installer 终极教程【免费下载链接】BetterNCM-Installer 一键安装 Better 系软件项目地址: https://gitcode.com/gh_mirrors/be/BetterNCM-Installer 还在为网易云音乐功能限制而烦恼吗？BetterNCM Insta…...

编程新知 2026/3/20 4:11:40

cv_resnet101_face-detection_cvpr22papermogface 模型鲁棒性测试：对抗样本攻击与防御初探

cv_resnet101_face-detection_cvpr22papermogface 模型鲁棒性测试：对抗样本攻击与防御初探你可能觉得，一个能精准识别人脸的AI模型已经足够强大了。确实，像 cv_resnet101_face-detection_cvpr22papermogface 这样的模型，在常规照…...

编程新知 2026/3/20 3:15:16