01.机器学习引言
1.机器学习的步骤
1. 数据搜集
其中数据划分,是将数据集分为训练集、验证集和测试集(通常不考虑时间)
2. 数据清洗
3. 特征工程
-
提取对象:原始数据(特征提取一般在特征选择之前)
-
提取目的:自动地构建新的特征,将原始数据转换为一组具有明显物理意义(例如,几何特征、纹理特征)或统计意义的特征
-
常用方法:
-
降维方面:PCA、ICA、LDA等
-
图像方面:SIFT、Gabor、HOG等
-
文本方面:词袋模型、词嵌入模型等
-
注意:传统机器学习跟深度学习在特征提取的区别:
深度学习不需要去做特征工程,模型自己对数据做特征工程
4. 数据建模
4.1 模型分类:
- 概率模型:决策树、朴素贝叶斯、隐马尔科夫模型、高斯混合模型等
- 非概率模型:感知机、支持向量机、KNN、AdaBoost、K-means以及神经网络等
4.2损失函数(衡量模型的好坏):
损失函数就是用来衡量模型预测结果跟真实数据之间的真值的。例如,平均损失函数(Quadratic Loss Function)L(Y,f(x)) = (Y- f(x))2,损失函数越小,模型性能越好。
所以我们在设定好一个模型之后,给定一个训练集,训练的目的就是去优化这个损失函数:
min f 1 N ∑ i = 1 n L ( y i , f ( x i ) ) \mathop {\min }\limits_f {1 \over N}\sum\limits_{i = 1}^n {L{{({y_i},f({x_i}))}}} fminN1i=1∑nL(yi,f(xi))
4.3 优化算法
怎么求这个损失函数呢?怎求的具体算法就称为优化算法,现在主要的优化算法有:梯度下降法、牛顿法、拟牛顿法、ADAM等等。
4.4评价指标
(1).评测模型好坏的评价指标:
-
正确肯定(True Positive,TP):预测为真,实际为真
-
正确否定(True Negative,TN):预测为假,实际为假
-
错误肯定(False Positive,FP):预测为真,实际为假
-
错误否定(False Negative,FN):预测为假,实际为真
(2).参考指标
Accuracy (准确率) = T P + T N T P + T N + F P + F N {{TP + TN} \over {TP + {\rm{TN}} + {\rm{FP + FN}}}} TP+TN+FP+FNTP+TN
Precision(精确率) = T P T P + F P {{TP} \over {TP + {\rm{FP}}}} TP+FPTP
Recall(召回率) = T P T P + F N {{TP} \over {TP + {\rm{FN}}}} TP+FNTP
F1 score = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l {{2 \times {\rm{Precision}} \times {\rm{Recall}}} \over {{\rm{Precision}} + {\rm{Recall}}}} Precision+Recall2×Precision×Recall
3.
2.数据集
2.1 K折交叉验证
交叉验证既可以解决数据集的数据量不够大的问题,也可以解决参数调优的问题。
步骤:
1.使用训练集训出k个模型
2.用k个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值)
3.选取代价函数值最小的模型
4.用步骤3中选出的模型对测试集计算,得出推广误差(代价函数的值)
2.2 数据集的不均衡
数据不平衡是指数据集中各类样本数量不均匀的情况。这种情况会给模型的训练带来很大的问题
平滑数据集分布不平衡的解决方法:
SMOTE (Synthetic Minority Over-sampling Technique)算法:在少样本的距离的中间再生成一个新的样本
3.机器学习分类
-
监督学习:输入的数据中有监督信息,以概率函数、代数函数或人工神经网络为基函数模型,采用迭代计算方法,学习结果为函数
-
无监督学习:输入数据中没有监督信息,采用聚类方法,学习结果为类别。典型的无监督学习有聚类,降维算法等。除此之外,还有自监督学习,半监督学习,对比学习等概念。
-
强化学习:以环境为反馈(奖/惩信号)作为输入,以统计和动态规划技术为指导的一种学习方法。
3.1 监督学习
-
分类(classfication)
-
回归(regression)
3.2 无监督
-
聚类(Clustering)
-
降维(Demensionality Reduction)
3.3 强化学习
用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
4.编程基础
- 编程语言:python、R
- 编程系统:Linux、anaconda
- 编程平台:jupyter notebook , vscode,pycharm
- 编程库:numpy,pandas,matplotlib,scikit-learn,pytorch,tensorflow
相关文章:
01.机器学习引言
1.机器学习的步骤 1. 数据搜集 其中数据划分,是将数据集分为训练集、验证集和测试集(通常不考虑时间) 2. 数据清洗 3. 特征工程 提取对象:原始数据(特征提取一般在特征选择之前) 提取目的:…...
结构型(二) - 桥接模式
一、概念 桥接模式(Bridge Pattern):是用于把抽象化与实现化解耦,使得二者可以独立变化。它通过提供抽象化和实现化之间的桥接结构,来实现二者的解耦。 另一种理解方式:一个类存在两个(或多个…...
多维时序 | MATLAB实现WOA-CNN-GRU-Attention多变量时间序列预测
多维时序 | MATLAB实现WOA-CNN-GRU-Attention多变量时间序列预测 目录 多维时序 | MATLAB实现WOA-CNN-GRU-Attention多变量时间序列预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 MATLAB实现WOA-CNN-GRU-Attention多变量时间序列预测,WOA-CNN-GR…...
C#与西门子PLC1500的ModbusTcp服务器通信1--项目背景
最近在一个120万元的项目中,涉及到modbustcp通信,我作为软件总工负责项目的通信程序开发,modbus是一个在工业自动化领域中的通信协议,可以是modbusrtu,modbusascii,modbustcp三个形式,具体来说是…...
Socks5代理与IP代理:网络安全与爬虫之道
1. Socks5代理的多功能性 Socks5代理是一种支持TCP和UDP协议的代理技术,适用范围广泛。不同于传统HTTP代理,Socks5代理在传输数据时更为灵活,可以满足实时数据传输的需求,适用于在线游戏、视频流等场景。此外,Socks5代…...
苹果电脑怎么录屏?步骤详解,看到就是赚到
苹果电脑作为一款受欢迎的高性能设备,不仅在日常工作中发挥着重要作用,还可以用于创造内容,如录制屏幕内容。录屏功能能够帮助用户将屏幕上的活动记录成视频,方便分享、演示或存档。可是您知道苹果电脑怎么录屏吗?通过…...
vb毕业生管理系统设计与实现
【摘要】 本毕业生管理系统是使用VB和ACCESS数据库为开发工具开发的一个全新的管理系统(MIS)。开发出的软件可以在任何一个装有VB环境的机器上运行。本毕业生管理系统包括六个子模块:用户登陆模块、学籍管理模块、学生成绩模块、毕业设计选题模块、毕业设计成绩管理模块、系…...
WPF入门到精通:4.页面增删改查及调用接口(待完善)
在WPF中,页面的增删改查可以通过使用DataGrid等控件来实现。接口的调用可以使用HttpClient或RestSharp等网络库来完成。 1.页面增删改查 使用DataGrid控件来展示数据,并通过绑定数据源来实现数据的增删改查操作。示例代码如下: XAML代码&a…...
容器和云原生(三):kubernetes搭建与使用
目录 单机K8S docker containerd image依赖 kubeadm初始化 验证 crictl工具 K8S核心组件 上文安装单机docker是很简单docker,但是生产环境需要多个主机,主机上启动多个docker容器,相同容器会绑定形成1个服务service,微服务…...
spring boot集成jasypt 并 实现自定义加解密
一. 技术需求 由于项目中的配置文件 配置的地方过多,现将配置文件统一放到nacos上集中管理 且密码使用加密的方式放在配置文件中 项目中组件使用的版本环境如下 spring cloud 2021.0.5 spring cloud alibaba 2021.0.5.0 spring boot 2.6.13 二. 技术实现 配置文…...
Qt文件系统操作和文件的读写
一、文件操作类概述 QIODevice:所有输入输出设备的基础类 QFile:用于文件操作和文件数据读写的类QSaveFile:用于安全保存文件的类QTemporaryFile:用于创建临时文件的类QTcpSocket和QUdpSocket:分别实现了TCP和UDP的类…...
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models
本文也是LLM系列相关文章,针对《MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models》的翻译。 MME:一个多模态大型语言模型的综合评估基准 摘要1 引言2 MME评估套件3 实验4 分析5 结论 摘要 多模态大语言模型(MLLM&…...
学习开发振弦采集模块的注意事项
学习开发振弦采集模块的注意事项 (三河凡科科技/飞讯教学)振弦采集模块是一种用来实时采集和处理振弦信号的电子设备,在工业、航空、医疗等领域都有广泛应用。学习开发振弦采集模块需要注意以下几点: 一、硬件选择 首先需要选择…...
抵御时代风险:高级安全策略与实践
目录 网页篡改攻击 流量攻击 数据库攻击 恶意扫描攻击 域名攻击 在今天的数字时代,网站已经成为企业、机构和个人展示信息、交流互动的重要平台。然而,随着网络攻击技术的不断进步,网站也面临着各种安全威胁。本文将探讨五种常见的网络攻…...
(3)、SpringCache源码分析
1、入口说明 @EnableCaching是开启SpringCache的一个总开关,开启时候我们的缓存相关注解才会生效,所以我们@EnableCaching开始作为入口进行分析, 2、分析@EnableCaching注解 @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Import(...
如何在 Ubuntu 中安装最新的 Python 版本
动动发财的小手,点个赞吧! Python 是增长最快的主要通用编程语言。其原因有很多,例如其可读性和灵活性、易于学习和使用、可靠性和效率。 目前使用的 Python 有两个主要版本 – 2 和 3(Python 的现在和未来)࿱…...
等保测评--安全物理环境--测评方法
安全子类--物理位置选择 a)机房场地应选择在具有防震、防风和防雨等能力的建筑内; 一、测评对象 记录类文档和机房 二、测评实施 1)检查机房所在建筑物是否具有建筑物抗震设防审批文档; 2)检查机房门窗是否不存在因风导致的尘土严重; 3)检查机房是否不存在雨水渗漏…...
解决jmeter导入jmx文件报错方法
有的时候我们导入别人的jmx文件,但是在导入的时候会报错,如下图: 这是缺少jmeter插件jar包所引起的,下载对应jar包放到jmeter安装目录对应的lib/ext下就可以了。可以通过插件管理工具包下载安装,也可以直接下载对应的…...
CH32V307 开启浮点后rtthread的修改
官方版本是3.1.3,而且只有整数的,开启浮点后要做一些修改,这里问了官方并贴出来方便大家使用: 首先在mounriver开启浮点,步骤: 开启浮点:ide 开启float point->rvf, floating point abi->…...
网络面试题(172.22.141.231/26,该IP位于哪个网段? 该网段拥有多少可用IP地址?广播地址是多少?)
此题面试中常被问到,一定要会172.22.141.231/26,该IP位于哪个网段? 该网段拥有多少可用IP地址?广播地址是多少? 解题思路: 网络地址:172.22.141.192 10101100.00010110.10001101.11000000 广播…...
【免费下载】 探索8051开发新境界:IAR for 8051(8.10版本)资源下载推荐
探索8051开发新境界:IAR for 8051(8.10版本)资源下载推荐 【下载地址】IARfor80518.10版本资源下载 IAR for 8051(8.10版本)资源下载 项目地址: https://gitcode.com/open-source-toolkit/1b6d8 项目介绍 在嵌…...
探索OpenHarmony蓝牙BLE测试HAP:高效验证与优化
探索OpenHarmony蓝牙BLE测试HAP:高效验证与优化 【下载地址】OpenHarmony鸿蒙蓝牙ble测试hap 本仓库提供的是用于OpenHarmony系统下的蓝牙BLE(低功耗蓝牙)测试HAP(HarmonyOS Ability Package)。此HAP旨在帮助开发者和测…...
10倍效率提升!词达人自动化助手:告别枯燥词汇练习的终极解决方案
10倍效率提升!词达人自动化助手:告别枯燥词汇练习的终极解决方案 【免费下载链接】cdr 微信词达人,高正确率,高效简洁。支持班级任务及自选任务 项目地址: https://gitcode.com/gh_mirrors/cd/cdr 你是否厌倦了每周在词达人…...
从入门到精通:wrk压力测试实战与性能调优全攻略
1. 为什么你需要wrk压力测试工具 第一次接触性能测试时,我像大多数开发者一样,用浏览器刷新页面来"感受"系统快慢。直到某次上线后服务器崩溃,才明白这种原始方法有多不靠谱。后来发现wrk这个工具,它彻底改变了我的性能…...
因果推理第四层盲区:为什么关联≠因果
因果推理第四层盲区:为什么关联≠因果 副标题: 从Pearl因果阶梯到知识库因果链,AI如何跨越观测vs建模的鸿沟痛点:为什么你的AI只能"描述"不能"规划"? 你有没有遇到过这样的情况: AI能告诉你"…...
GPU-CPU混合向量检索框架的技术突破与应用
1. 项目概述:GPU-CPU混合向量检索框架的技术突破在当今大规模信息检索和推荐系统领域,向量相似度计算已成为核心瓶颈。传统方案通常面临两难选择:要么完全依赖CPU导致响应延迟居高不下,要么全量使用GPU造成资源严重浪费。VECTORLI…...
nodejs后端服务如何接入taotoken调用多模型能力
🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 Node.js 后端服务如何接入 Taotoken 调用多模型能力 基础教程类,面向使用 Node.js 构建后端服务或前端应用的开发者&am…...
[通俗易懂]从“生产者-消费者”模型秒懂Java泛型PECS原则(别再死记硬背了)
1. 从超市购物理解PECS原则 想象你正在超市采购水果。水果区有各种水果篮:有的专放苹果,有的专放香蕉,还有个"混合水果区"放各种水果。这时候你会发现两个有趣的现象: 从水果区取水果:你可以从任何水果篮里安…...
2026年公司文化专题片拍摄公司排行榜:行业深度解析
引言随着企业对品牌传播和文化建设的重视程度不断提升,公司文化专题片成为展示企业形象、传递核心价值观的重要手段。越来越多的企业开始关注如何通过高质量的专题片来提升品牌形象和企业文化影响力。本文将深入分析2026年公司文化专题片拍摄行业的趋势,…...
如何安全使用R3nzSkin:5分钟快速上手指南
如何安全使用R3nzSkin:5分钟快速上手指南 【免费下载链接】R3nzSkin Skin changer for League of Legends (LOL) 项目地址: https://gitcode.com/gh_mirrors/r3n/R3nzSkin 想在英雄联盟中免费体验所有皮肤,又担心账号安全?R3nzSkin这款…...
