当前位置: 首页 > news >正文

网站焦点图多少钱/专业seo培训

网站焦点图多少钱,专业seo培训,《网站推广策划》,如何进行软件开发🤵‍♂️ 个人主页: AI_magician 📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。 👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!&…

在这里插入图片描述

🤵‍♂️ 个人主页: @AI_magician
📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。
👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!🐱‍🏍
🙋‍♂️声明:本人目前大学就读于大二,研究兴趣方向人工智能&硬件(虽然硬件还没开始玩,但一直很感兴趣!希望大佬带带)

在这里插入图片描述

【深度学习 | 核心概念】那些深度学习路上必经的核心概念,确定不来看看? (一)
作者: 计算机魔术师
版本: 1.0 ( 2023.8.27 )

摘要: 本系列旨在普及那些深度学习路上必经的核心概念,文章内容都是博主用心学习收集所写,欢迎大家三联支持!本系列会一直更新,核心概念系列会一直更新!欢迎大家订阅

该文章收录专栏
[✨— 《深入解析机器学习:从原理到应用的全面指南》 —✨]

数据预处理

处理缺失值

这些方法的选择取决于数据集的特点、缺失值的模式以及所使用的分析方法。在实际应用中,需要根据具体情况选择适当的方法,并进行验证和评估,以确保处理缺失值的有效性和合理性。

当数据存在空值时(除了看缺失值个数,建议看缺失值的比例, 更具有代表性),

# 自定义analysis函数,实现数据信息探索的描述性统计分析和缺失值分析
def analysis(data):print('描述性统计分析结果为:\n', data.describe())print('各属性缺失值占比为:\n', 100*(data.isnull().sum() / len(data)))
名称介绍优缺点
删除删除包含缺失值的数据行或列。优点:简单快捷,适用于缺失值较少的情况。缺点:可能会丢失有用的信息,特别是当缺失值的模式与其他变量相关时。如果缺失值占比较大,可能导致样本减少。
插补使用统计方法估计缺失值,并填充数据。常见的插补方法包括均值、中位数、众数、回归等。 或者根据数据实际场景填补, 比如电商手机数据同等系列其他数据可以补充优点:保留样本量,不会丢失数据。缺点:可能引入估计误差,可能改变数据的分布和关系。插补方法的选择和质量对结果影响较大。
标记使用特殊值(如NaN、-1)或标签(如"Unknown", “其他”)来标记缺失值。优点:简单直观,不会改变数据的分布和关系。缺点:在某些算法中可能会引入偏差。处理标记值的方式需要小心,以免引入错误。
分类将缺失值作为一个特殊的类别对待。优点:不会丢失信息,适用于缺失值有特别含义的情况。缺点:可能会使数据变得更复杂,某些算法可能需要额外的调整才能处理分类特征。
多重插补使用多个插补模型,通过迭代的方式进行插补优点:可以更准确地估计缺失值,并提供不确定性估计。缺点:计算复杂度较高,可能需要更长 的处理时间。需要小心处理迭代过程中的收敛性和稳定性。
模型预测使用机器学习模型来预测缺失值。可以使用其他特征作为输入,预测缺失值。优点:可以更准确地估计缺失值,考虑了特征之间的关系。缺点:计算复杂度较高,需要训练和调整模型。可能会引入模型预测误差。
插补法

对于时间序列的数据,以下几种插值方法比较常用和建议使用:

  1. 线性插值:线性插值是最简单和常用的插值方法之一。它假设数据在两个已知数据点之间是线性变化的,通过计算两个已知数据点之间的线性函数来填充空值。线性插值简单、快速,并且可以适用于大多数情况。

  2. 拉格朗日插值:拉格朗日插值是一种多项式插值方法,它通过计算一个多项式函数来逼近数据的变化。拉格朗日插值可以更准确地拟合数据的非线性变化,但对于大规模数据集和高阶多项式,计算量可能较大。

  3. 样条插值:样条插值是一种平滑的插值方法,通过拟合一条平滑的曲线来逼近数据的变化。样条插值可以处理数据的曲线和趋势变化,常用的样条插值方法包括线性样条插值、三次样条插值等。

  4. 时间序列模型插值:对于时间序列数据,可以使用时间序列模型来预测和填充空值。常用的时间序列模型包括ARIMA模型、指数平滑模型、神经网络模型等。这些模型可以根据时间的趋势、季节性等特征来预测未来的数值,并填充空值。

选择插值方法时,应根据时间序列数据的性质和特征选择最适合的方法。对于平稳的时间序列,线性插值或拉格朗日插值可能足够;对于非线性或具有季节性的时间序列,样条插值或时间序列模型插值可能更合适。

此外,还可以根据数据的连续性和周期性来选择插值方法。例如,对于缺失的周期性数据,可以使用周期性插值方法,如周期移动平均或周期性线性插值。

处理重复值

方法名称方法介绍优缺点
删除重复值从数据集中删除所有重复的观测值或行。优点:简单快捷;缺点:可能会导致数据丢失,特别是在其他列的值也存在差异的情况下。
唯一化保留数据集中的唯一值,并删除重复的观测值或行。优点:保留了数据集中的唯一信息;缺点:可能会导致数据丢失,特别是在其他列的值也存在差异的情况下。
标记重复值标记数据集中的重复值,以便后续分析中可以识别它们。优点:保留了数据集中的所有信息,并能够识别重复值;缺点:可能会增加数据集的大小,增加后续处理的复杂性。
聚合数据将重复值聚合成单个值,例如计算平均值或合并文本字符串。优点:保留了数据集中的所有信息,并提供了汇总的结果;缺点:根据具体情况,可能会引入汇总误差或信息丢失。
保留第一个/最后一个仅保留重复值中的第一个或最后一个观测值,删除其他重复值。优点:简单易行;缺点:可能会引入偏差,因为保留的观测值可能不代表整个重复值组的特征。

这些方法可以根据具体的数据集和分析需求选择和调整。在处理重复值之前,通常还需要对数据进行排序,以确保相邻观测值之间的一致性。此外,了解数据集中的重复值产生的原因也是很重要的,这有助于确定最适合的处理方法。

注意在使用pd.drop_duplicates() 选择subset某一列避免全部删除

文本处理

当涉及到自然语言处理(NLP)任务时,文本预处理是一个重要的步骤。它旨在将原始文本数据转换为机器学习算法可以理解和处理的格式。下面是几种常见的文本预处理算法,包括它们的介绍以及优缺点。

名称介绍优缺点
分词(Tokenization)将文本拆分为词(或标记)的过程。常见的方法是使用空格或标点符号来分隔词语。例如jieba库(等 )优点:简单快速,适用于大多数NLP任务。缺点:无法处理歧义和特殊情况(如缩写词和复合词)。
停用词去除(Stop Word Removal)停用词是在文本中频繁出现但通常不携带太多信息的单词(如“the”、“is”、“and”等)。该算法的目标是从文本中去除这些停用词。一般来说有现成的停用词, 实际还要根据实际问题去除额外不需要的文本优点:减少数据维度,提高后续步骤的效果。缺点:有时可能会去除一些重要的上下文信息。
规范化(Normalization)将文本中的单词转换为标准形式,以消除词形变化对分析的影响。例如,将单词的时态、数目和人称转换为统一形式。优点:减少词汇的多样性,提高模型的泛化能力。缺点:可能导致一些信息的丢失。
词干提取(Stemming)通过去除单词的后缀,将单词转换为它的词干形式。例如,将“running”、“runs”和“ran”转换为“run”。优点:简单快速,适用于一些信息检索任务。缺点:可能得到不是真正存在的词汇形式。
词形还原(Lemmatization)将单词还原为它的基本形式(称为词元),具有语义上的准确性。例如,将“am”、“are”和“is”还原为“be”。优点:提供更准确的词汇形式,适用于要求高精度的任务。缺点:计算成本较高,速度较慢。
清洗(Cleaning)去除文本中的噪声、表情、特殊字符和HTML标签或表情符号(一般是&字母;)等非文本数据。根据数据集去除对目标无用的数据,例如电商数据默认好评”您没有填写内容,默认好评“优点:提高文本质量,减少不相关的信息。缺点:可能会丢失一些有用的特征。
编码(Encoding)将文本转换为数字表示形式,以便机器学习算法能够处理。常见的编码方法包括独热编码、词袋模型和词嵌入。优点:方便算法处理,保留了一定的语义信息。缺点:可能无法捕捉词语之间的关系和上下文信息。

这些算法通常会根据具体任务和数据集的特点进行组合使用。选择适当的文本预处理步骤取决于任务的目标和数据的特点。

在这里插入图片描述

						  🤞到这里,如果还有什么疑问🤞🎩欢迎私信博主问题哦,博主会尽自己能力为你解答疑惑的!🎩🥳如果对你有帮助,你的赞是对博主最大的支持!!🥳

相关文章:

【数据挖掘 | 数据预处理】缺失值处理 重复值处理 文本处理 确定不来看看?

🤵‍♂️ 个人主页: AI_magician 📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。 👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!&…...

二叉树问题——前/中/后/层遍历(递归与栈)

摘要 博文主要介绍二叉树的前/中/后/层遍历(递归与栈)方法 一、前/中/后/层遍历问题 144. 二叉树的前序遍历 145. 二叉树的后序遍历 94. 二叉树的中序遍历 102. 二叉树的层序遍历 二、二叉树遍历递归解析 // 前序遍历递归LC144_二叉树的前序遍历 class Solution {publi…...

Nor Flash和Nand Flash的区别——笔记

NorFlash:串行存储器、读取速度比较快(比NandFlash快),适合用于存储程序代码和执行代码,但NorFlash写入速度比较慢、容量比较小。数据线和地址线是分开的。 NandFlash:并行存储器、写入速度比较快&#xf…...

7+共病思路。WGCNA+多机器学习+实验简单验证,易操作

今天给同学们分享一篇共病WGCNA多机器学习实验的生信文章“Shared diagnostic genes and potential mechanism between PCOS and recurrent implantation failure revealed by integrated transcriptomic analysis and machine learning”,这篇文章于2023年5月16日发…...

开发者看亚马逊云科技1024【文末有福利~】

1024,2023年的1024,注定是不平凡的1024,AIGC已经成为了整个年度的主题,亚马逊云科技在这个开发者每年最重要的日子,举办了生成式AI构建者大会,让我们一起再次了解本次生成式AI构建者大会,回顾会…...

操作系统(Linux)外壳程序shell 、用户、权限

文章目录 操作系统和shell外壳Linux用户普通用户的创建和删除用户的切换 Linux 权限Linux 权限分类文件访问权限修改文件的权限权限掩码粘滞位 大家好,我是纪宁。 这篇文章将介绍 Linux的shell外壳程序,Linux用户切换机Linux权限的内容。 操作系统和shel…...

C文件操作

目录 1. 什么是文件 2. 为什么要有文件 3. 文件名 4. 文件类型 5. 文件指针 6. 文件的打开和关闭 7. 文件的顺序读写 7.1. fgetc 7.2. fputc 7.3. fgets 7.4. fputs 7.5. fscanf 7.6. fprintf 7.8. sscanf 7.9. sprintf 7.9. fread 7.10. fwrite 8. 文件的随…...

drawio特性

drawio的特性 drawio是领先的基于Web技术的草图和图表功能功能的应用。 保证数据的安全 集成了各种不同的平台,和提供了在线的免费编辑器,可以使用app.diagrams.net来方案,drawio本身不会存储用户的数据。 随着互联网时代的发展&#xff0…...

LLM-Embedder

1. 目标 训出一个统一的embedding模型LLM-Embedder,旨在全面支持LLM在各种场景中的检索增强 2. 模型的四个关键检索能力 knowledge:解决knowledge-intensive任务memory:解决long-context modelingexample:解决in-context learn…...

xsync 集群远程同步脚本

xsync 集群分发 脚本 (1)需求:循环复制文件到所有节点的相同目录下 (2)需求分析: (a)rsync 命令原始拷贝: rsync -av /opt/module roothadoop103:/opt/(b&am…...

30秒get视频号视频如何下载,保存视频号视频到本地方法!

终于可以告别无法下载视频号视频的烦恼啦!下面是一些只需 30 秒就能get到的t视频号视频如何下载方法,让我们一起来探索如何保存视频号视频到本地方法吧! 首先,要记得这些方法仅适用于个人观看或学习使用,不可用于商业用…...

优化改进YOLOv5算法:加入SPD-Conv模块,让小目标无处遁形——(超详细)

1 SPD-Conv模块 论文:https://arxiv.org/pdf/2208.03641v1.pdf 摘要:卷积神经网络(CNNs)在计算即使觉任务中如图像分类和目标检测等取得了显著的成功。然而,当图像分辨率较低或物体较小时,它们的性能会灾难性下降。这是由于现有CNN常见的设计体系结构中有缺陷,即使用卷积…...

【数据结构】搜索树 与 Java集合框架中的Set,Map

作者主页:paper jie_博客 本文作者:大家好,我是paper jie,感谢你阅读本文,欢迎一建三连哦。 本文录入于《JAVA数据结构》专栏,本专栏是针对于大学生,编程小白精心打造的。笔者用重金(时间和精力…...

掌握组件缓存:解开Vue.js中<keep-alive>的奥秘

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…...

Ajax学习笔记第5天

无论做什么,都请记得那是为自己而做,那就毫无怨言! 【1. 跨域】 1.什么是跨域 跨域是指浏览器不能执行其他网站的脚本。它是浏览器同源策略造成的,是浏览器对JS实施的安全限制。 2.常见的跨域场景 3.什么事同源策略 &#xff…...

20.1 OpenSSL 字符BASE64压缩算法

OpenSSL 是一种开源的加密库,提供了一组用于加密和解密数据、验证数字证书以及实现各种安全协议的函数和工具。它可以用于创建和管理公钥和私钥、数字证书和其他安全凭据,还支持SSL/TLS、SSH、S/MIME、PKCS等常见的加密协议和标准。 OpenSSL 的功能非常…...

Panda3d 教程

Panda3d 教程 偶然之余看到了 Panda3d 这个3D引擎,觉得代码开源然后又比较轻量级,感觉还是比较好上手的,因此就想去学习一下,然后把学习过程记录下来。 网上也都找了不少关于Panda3d 方面的教程,但是感觉都不是很好&a…...

除自身以外数组的乘积

给你一个整数数组 nums,返回 数组 answer ,其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积 。 题目数据 保证 数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位 整数范围内。 请 不要使用除法,且在 O(n) 时间复杂…...

干洗店小程序上门洗鞋店管理软件功能介绍;

干洗店小程序上门洗鞋店管理软件功能介绍; 营销工具-洗鞋店管理软件多渠道玩法,拓客留客 支付-会员管理系统多种支付方式,灵活经营 ​ ​提供洗鞋店管理软件服务,实现会员精细化运营 会员档案-洗鞋店管理软件记录会员的全方位信…...

【C语言初学者周冲刺计划】1.1用筛选法求100之内的素数

目录 1解题思路: 2代码如下: 3运行代码如图所示: 4总结: (前言周冲刺计划:周一一个习题实操,依次类推加一,望各位读者可以独自实践敲代码) 1解题思路: 首先了解筛选法定义:先把…...

1.Vue—简介、实例与容器、MVVM模型

文章目录 一、Vue简介1.1 特点1.2 搭建Vue开发环境1.2.1 开发版1.2.2 生产版 1.3 下载Vue开发工具1.3.1 GitHub方式1.3.2 国内方式 1.4 消除环境提示 二、 入门程序2.1 HelloWord2.2 分析Hello案例2.3.1 多容器对一实例2.3.2 多实例对应一容器2.3.3 总结 三、MVVM模型 一、Vue简…...

【Java笔试强训】Day7(WY22 Fibonacci数列、CM46 合法括号序列判断)

Fibonacci数列 链接:Fibonacci数列 题目: Fibonacci数列是这样定义的: F[0] 0 F[1] 1 for each i ≥ 2: F[i] F[i-1] F[i-2] 因此,Fibonacci数列就形如:0, 1, 1, 2, 3, 5, 8, 13, …,在Fibonacci数列…...

Linux进程的概念

一:冯诺依曼体系结构 什么叫做体系结构??? 计算机组成 / 芯片架构 输入单元:键盘、话筒、摄像头、usb、鼠标、磁盘(ROM)/ssd、网卡、显卡 存储器:内存(RAM&#xff09…...

XML教学视频(黑马程序员精讲 XML 知识!)笔记

第一章XML概述 1.1认识XML XML数据格式: 不是html但又和html有点相似 XML数据格式最主要的功能就是数据传输(一个服务器到另一个服务器,一个网站到另一个网站)配置文件、储存数据当做小型数据可使用、规范数据格式让数据具有结…...

自定义组件实现v-model

要使自定义的Vue组件支持v-model&#xff0c;需要实现一个名为value的prop和一个名为input的事件。在组件内部&#xff0c;将value prop 绑定到组件的内部状态&#xff0c;然后在对内部状态进行修改时触发input事件。 自定义UI组件 <template><input :value"va…...

【自动驾驶】Free space与Ray casting

文章目录 1 Free space是什么2 Ray casting是什么3 它俩啥关系4 TODO 1 Free space是什么 在自动驾驶领域&#xff0c;free space即可行驶区域&#xff0c;在结构化道路的十字路口/非结构化道路都有很大作用。 2 Ray casting是什么 ray casting是计算机视觉领域&#xff0c;…...

RHCE---正则表达式

文章目录 目录 文章目录 前言 一. 文本搜索工具 二.正则表达式 元字符 ^行首与$行尾 点(.) 与星号(*) 扩展正则 总结 前言 正则表达式是文本三剑客中及其重要的一环&#xff0c;称之为灵魂也不为过&#xff0c;到底什么是正则表达式呢&#xff0c;让我们一起来了解以下…...

3D RPG Course | Core 学习日记一:初识URP

前言 最近开始学习Unity中文课堂M_Studio&#xff08;麦大&#xff09;的3D RPG Course&#xff0c;学习一下3D RPG游戏核心功能的实现&#xff0c;第一课我们学习到的是地图场景的编辑&#xff0c;其中涉及到了URP渲染。 我们首先进入Unity资源商店把地图素材和人物素材导入好…...

Spring Cloud 之RabbitMQ的学习【详细】

服务通信 分布式系统通信两种方式&#xff1a; 直接远程调用&#xff08;同步&#xff09;借助第三方间接通信&#xff08;异步&#xff09; 同步通讯的问题 Feign就属于同步通讯。存在的如下问题 耦合度高&#xff0c;每次添加新的模块就要修改原有模块的代码性能下降&am…...

第五章 I/O管理 六、I/O核心子系统

目录 一、核心子系统 1、I/O调度 2、设备保护 二、假脱机技术 1、脱机&#xff1a; 2、假脱机&#xff08;SPOOLing技术&#xff09;&#xff1a; 3、应用&#xff1a; 1.独占式设备&#xff1a; 2.共享设备&#xff1a; 4、共享打印机原理分析 三、总结 一、核心子系…...