当前位置：首页 > news >正文

[Machine Learning][Part 6]Cost Function代价函数和梯度正则化

news 文章来源：https://blog.csdn.net/x1987200567/article/details/133905450 2025/2/12 16:18:09

拟合

欠拟合

过拟合

正确的拟合

解决过拟合的方法：正则化

线性回归模型和逻辑回归模型都存在欠拟合和过拟合的情况。

拟合

来自百度的解释：

数据拟合又称曲线拟合，俗称拉曲线，是一种把现有数据透过数学方法来代入一条数式的表示方式。科学和工程问题可以通过诸如采样、实验等方法获得若干离散的数据，根据这些数据，我们往往希望得到一个连续的函数（也就是曲线）或者更加密集的离散方程与已知数据相吻合，这过程就叫做拟合(fitting)。

个人理解，拟合就是根据已有数据来建立的一个数学模型，这个数据模型能最大限度的包含现有的数据。这样预测的数据就能最大程度的符合现有情况。

欠拟合

所建立的模型与现有数据匹配度较低如下图的分类模型，决策边界并不能很好的区分目前的数据

当训练数据的特征值较少的时候会出现欠拟合

过拟合

模型过于匹配现有数据，导致模型不能推广应用到更多数据中去。当训练数据的特征值太多的时候会出现这种情况。

正确的拟合

介于欠拟合和过拟合之间

解决过拟合的方法：正则化

解决过拟合的方法是将模型正则化，就是说把不是主要特征的w_j调整为无限接近于0，然后训练模型，这样来寻找最优的模型。这样存在一个问题，怎么分辨特征是不是主要特征呢？这个是不好分辨的，因此是把所有的特征都正则化，正则化的公式为:

线性回归cost function:

逻辑回归cost function:

适用于线性回归和逻辑回归的梯度下降函数：

实现代码：

import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
from plt_overfit import overfit_example, outputnp.set_printoptions(precision=8)def sigmoid(z):"""Compute the sigmoid of zArgs:z (ndarray): A scalar, numpy array of any size.Returns:g (ndarray): sigmoid(z), with the same shape as z"""g = 1/(1+np.exp(-z))return gdef compute_cost_linear_reg(X, y, w, b, lambda_ = 1):"""Computes the cost over all examplesArgs:X (ndarray (m,n): Data, m examples with n featuresy (ndarray (m,)): target valuesw (ndarray (n,)): model parameters  b (scalar)      : model parameterlambda_ (scalar): Controls amount of regularizationReturns:total_cost (scalar):  cost """m  = X.shape[0]n  = len(w)cost = 0.for i in range(m):f_wb_i = np.dot(X[i], w) + b                                   #(n,)(n,)=scalar, see np.dotcost = cost + (f_wb_i - y[i])**2                               #scalar             cost = cost / (2 * m)                                              #scalar  reg_cost = 0for j in range(n):reg_cost += (w[j]**2)                                          #scalarreg_cost = (lambda_/(2*m)) * reg_cost                              #scalartotal_cost = cost + reg_cost                                       #scalarreturn total_cost                                                  #scalarnp.random.seed(1)
X_tmp = np.random.rand(5,6)
y_tmp = np.array([0,1,0,1,0])
w_tmp = np.random.rand(X_tmp.shape[1]).reshape(-1,)-0.5
b_tmp = 0.5
lambda_tmp = 0.7
cost_tmp = compute_cost_linear_reg(X_tmp, y_tmp, w_tmp, b_tmp, lambda_tmp)print("Regularized cost:", cost_tmp)def compute_cost_logistic_reg(X, y, w, b, lambda_ = 1):"""Computes the cost over all examplesArgs:Args:X (ndarray (m,n): Data, m examples with n featuresy (ndarray (m,)): target valuesw (ndarray (n,)): model parameters  b (scalar)      : model parameterlambda_ (scalar): Controls amount of regularizationReturns:total_cost (scalar):  cost """m,n  = X.shapecost = 0.for i in range(m):z_i = np.dot(X[i], w) + b                                      #(n,)(n,)=scalar, see np.dotf_wb_i = sigmoid(z_i)                                          #scalarcost +=  -y[i]*np.log(f_wb_i) - (1-y[i])*np.log(1-f_wb_i)      #scalarcost = cost/m                                                      #scalarreg_cost = 0for j in range(n):reg_cost += (w[j]**2)                                          #scalarreg_cost = (lambda_/(2*m)) * reg_cost                              #scalartotal_cost = cost + reg_cost                                       #scalarreturn total_cost                                                  #scalarnp.random.seed(1)
X_tmp = np.random.rand(5,6)
y_tmp = np.array([0,1,0,1,0])
w_tmp = np.random.rand(X_tmp.shape[1]).reshape(-1,)-0.5
b_tmp = 0.5
lambda_tmp = 0.7
cost_tmp = compute_cost_logistic_reg(X_tmp, y_tmp, w_tmp, b_tmp, lambda_tmp)print("Regularized cost:", cost_tmp)def compute_gradient_linear_reg(X, y, w, b, lambda_): """Computes the gradient for linear regression Args:X (ndarray (m,n): Data, m examples with n featuresy (ndarray (m,)): target valuesw (ndarray (n,)): model parameters  b (scalar)      : model parameterlambda_ (scalar): Controls amount of regularizationReturns:dj_dw (ndarray (n,)): The gradient of the cost w.r.t. the parameters w. dj_db (scalar):       The gradient of the cost w.r.t. the parameter b. """m,n = X.shape           #(number of examples, number of features)dj_dw = np.zeros((n,))dj_db = 0.for i in range(m):                             err = (np.dot(X[i], w) + b) - y[i]                 for j in range(n):                         dj_dw[j] = dj_dw[j] + err * X[i, j]               dj_db = dj_db + err                        dj_dw = dj_dw / m                                dj_db = dj_db / m   for j in range(n):dj_dw[j] = dj_dw[j] + (lambda_/m) * w[j]return dj_db, dj_dwnp.random.seed(1)
X_tmp = np.random.rand(5,3)
y_tmp = np.array([0,1,0,1,0])
w_tmp = np.random.rand(X_tmp.shape[1])
b_tmp = 0.5
lambda_tmp = 0.7
dj_db_tmp, dj_dw_tmp =  compute_gradient_linear_reg(X_tmp, y_tmp, w_tmp, b_tmp, lambda_tmp)print(f"dj_db: {dj_db_tmp}", )
print(f"Regularized dj_dw:\n {dj_dw_tmp.tolist()}", )def compute_gradient_logistic_reg(X, y, w, b, lambda_): """Computes the gradient for linear regression Args:X (ndarray (m,n): Data, m examples with n featuresy (ndarray (m,)): target valuesw (ndarray (n,)): model parameters  b (scalar)      : model parameterlambda_ (scalar): Controls amount of regularizationReturnsdj_dw (ndarray Shape (n,)): The gradient of the cost w.r.t. the parameters w. dj_db (scalar)            : The gradient of the cost w.r.t. the parameter b. """m,n = X.shapedj_dw = np.zeros((n,))                            #(n,)dj_db = 0.0                                       #scalarfor i in range(m):f_wb_i = sigmoid(np.dot(X[i],w) + b)          #(n,)(n,)=scalarerr_i  = f_wb_i  - y[i]                       #scalarfor j in range(n):dj_dw[j] = dj_dw[j] + err_i * X[i,j]      #scalardj_db = dj_db + err_idj_dw = dj_dw/m                                   #(n,)dj_db = dj_db/m                                   #scalarfor j in range(n):dj_dw[j] = dj_dw[j] + (lambda_/m) * w[j]return dj_db, dj_dw  np.random.seed(1)
X_tmp = np.random.rand(5,3)
y_tmp = np.array([0,1,0,1,0])
w_tmp = np.random.rand(X_tmp.shape[1])
b_tmp = 0.5
lambda_tmp = 0.7
dj_db_tmp, dj_dw_tmp =  compute_gradient_logistic_reg(X_tmp, y_tmp, w_tmp, b_tmp, lambda_tmp)print(f"dj_db: {dj_db_tmp}", )
print(f"Regularized dj_dw:\n {dj_dw_tmp.tolist()}", )plt.close("all")
display(output)
ofit = overfit_example(True)

逻辑回归输出为：

[Machine Learning][Part 6]Cost Function代价函数和梯度正则化

目录拟合欠拟合过拟合正确的拟合解决过拟合的方法：正则化线性回归模型和逻辑回归模型都存在欠拟合和过拟合的情况。拟合来自百度的解释： 数据拟合又称曲线拟合，俗称拉曲线，是一种把现有数据透过数学方法来代入一条…...

编程日记 2023/10/19 9:29:07

工业自动化编程与数字图像处理技术

工业自动化编程与数字图像处理技术编程是计算机领域的基础技能，对于从事软件开发和工程的人来说至关重要。在工业自动化领域，C/C仍然是主流的编程语言，特别是用于工业界面(GUI)编程。工业界面是供车间操作员使用的，使用诸如Hal…...

编程日记 2023/10/19 9:28:06

/** File Name : JY61P.cDescription : attention © Copyright (c) 2020 STMicroelectronics. All rights reserved.This software component is licensed by ST under Ultimate Liberty licenseSLA0044, the “License”; You may not use this file except in complian…...

编程日记 2023/10/19 9:27:05

Go编程：使用 Colly 库下载Reddit网站的图像

概述 Reddit是一个社交新闻网站，用户可以发布各种主题的内容，包括图片。本文将介绍如何使用Go语言和Colly库编写一个简单的爬虫程序，从Reddit网站上下载指定主题的图片，并保存到本地文件夹中。为了避免被目标网站反爬&#xff0c…...

编程日记 2023/10/19 9:26:04

高性能日志脱敏组件：已支持 log4j2 和 logback 插件

项目介绍日志脱敏是常见的安全需求。普通的基于工具类方法的方式，对代码的入侵性太强，编写起来又特别麻烦。 sensitive提供基于注解的方式，并且内置了常见的脱敏方式，便于开发。同时支持 logback 和 log4j2 等常见的日志脱敏…...

编程日记 2023/10/19 9:25:02

一文读懂PostgreSQL中的索引

前言索引是加速搜索引擎检索数据的一种特殊表查询。简单地说，索引是一个指向表中数据的指针。一个数据库中的索引与一本书的索引目录是非常相似的。拿汉语字典的目录页（索引）打比方，我们可以按拼音、笔画、偏旁部首等排序的目录…...

编程日记 2023/10/19 9:24:01

windows的批量解锁

场景场景是我从github上拉了一个c#项目启动的时候报错， 1>C:\Program Files\Microsoft Visual Studio\2022\Community\MSBuild\Current\Bin\amd64\Microsoft.Common.CurrentVersion.targets(3327,5): error MSB3821: 无法处理文件 UI\Forms\frmScriptBuilder.…...

编程日记 2023/10/19 9:23:00

Nginx配置微服务避免actuator暴露

微服务一般在扫漏洞的情况下，需要屏蔽actuator健康检查 # 避免actuator暴露 if ($request_uri ~ "/actuator") { return 403; }...

编程日记 2023/10/19 9:21:59

GEE——在GEE中计算地形位置指数TPI

简介： DEM中的TPI计算是指通过计算每个像元高程与其邻域高程的差值来计算地形位置指数（Topographic Position Index）。TPI 是描述地形起伏度和地形形态的一个重要指标，可以用于地貌分类、土壤侵蚀、植被分布等领域。地形位置指数（Topographic Position Index，TPI）是用…...

编程日记 2023/10/19 9:20:57

树的基本操作(数据结构)

树的创建 //结构结点 typedef struct Node {int data;struct Node *leftchild;struct Node *rightchild; }*Bitree,BitNode;//初始化树 void Create(Bitree &T) {int d;printf("输入结点(按0为空结点):");scanf("%d",&d);if(d!0){T (Bitree)ma…...

编程日记 2023/10/19 9:19:56

Python复刻游戏《贪吃蛇大作战》

入门教程、案例源码、学习资料、读者群请访问： python666.cn 大家好，欢迎来到 Crossin的编程教室 ！ 曾经有一款小游戏刷屏微信朋友圈，叫做《贪吃蛇大作战》。一个简单到不行的游戏，也不知道怎么就火了，还上…...

编程日记 2023/10/19 9:18:55

SpringCloud之Gateway整合Sentinel服务降级和限流

1.下载Sentinel.jar可以图形界面配置限流和降级规则地址:可能需要翻墙下载jar文件 2.引入maven依赖 <dependency><groupId>com.alibaba.cloud</groupId><artifactId>spring-cloud-alibaba-s…...

编程日记 2023/10/19 9:17:54

深度学习——深度卷积神经网络（AlexNet)

深度学习——深度卷积神经网络（AlexNet) 文章目录前言一、学习表征二、AlexNet实现2.1. 模型设计2.2. 激活函数2.3. 容量控制与预处理2.4. 训练模型总结前言在前面学习了卷积神经网络的基本原理，之后将继续学习现代卷积神经网络架构。而本章将学习其…...

编程日记 2023/10/19 9:16:52

提高编程效率-Vscode实用指南

您是否知道全球73%的开发人员依赖同一个代码编辑器？ 是的，2023 年 Stack Overflow 开发者调查结果已出炉，Visual Studio Code 迄今为止再次排名第一最常用的开发环境。 “Visual Studio Code 仍然是所有开发人员的首选 IDE，与专业…...

编程日记 2023/10/19 9:15:51

ES 数据库

ES 数据库通过 API 查询通过 JSON 查询熟悉 es 的同学都知道 es 一般有两种查询方式 1，在 java 中构建查询对象，调用 es 提供的 api 做查询 2，使用 json 调用接口做查询查询语句无非是将足够的信息丢给数据库，但是它却和 SQL …...

编程日记 2023/10/19 9:14:50

面试经典150题——Day14

文章目录一、题目二、题解一、题目 134. Gas Station There are n gas stations along a circular route, where the amount of gas at the ith station is gas[i]. You have a car with an unlimited gas tank and it costs cost[i] of gas to travel from the ith stati…...

编程日记 2023/10/19 9:13:50

Pika v3.5.1发布！

Pika 社区很高兴宣布，我们今天发布已经过我们生产环境验证 v3.5.1 版本，https://github.com/OpenAtomFoundation/pika/releases/tag/v3.5.1 。该版本不仅做了很多优化工作，还引入了多项新功能。这些新功能包括动态关闭 WAL、ReplicationID…...

编程日记 2023/10/19 9:12:49

Kotlin中的数组

数组是一种常见的数据结构，用于存储相同类型的多个元素。在 Kotlin 中，我们可以使用不同的方式声明、初始化和操作数组。在 Kotlin 中，有多种方式可以定义和操作数组。我们将通过以下示例代码来展示不同的数组操作： fun main()…...

编程日记 2023/10/19 9:11:48

(3) OpenCV图像处理kNN近邻算法-识别摄像头数字

目录一、代码简介二、程序代码三、使用的图片资源 1、图片digits.png...

编程日记 2023/10/19 9:10:47

上海亚商投顾：沪指震荡调整转基因概念股逆势大涨

上海亚商投顾前言：无惧大盘涨跌，解密龙虎榜资金，跟踪一线游资和机构资金动向，识别短期热点和强势个股。一.市场情绪沪指昨日低开低走，深成指、创业板指均跌超1%，双双创出年内新低。转基因概念股逆势大涨…...

编程日记 2023/10/19 9:09:46

abap中程序跳转(全)

1.常用 1.CALL TRANSACTION 1.CALL TRANSACTION ta WITH|WITHOUT AUTHORITY-CHECK [AND SKIP FIRST SCREEN]. 其中ta为事务码tcode使用时要打单引号() 2. CALL TRANSACTION ta WITH|WITHOUT AUTHORITY-CHECK USING bdc_tab { {[MODE mode] [UPDATE u…...

编程日记 2023/10/19 9:06:42

启动速度提升 10 倍：Apache Dubbo 静态化方案深入解析

作者：华钟明文章摘要： 本文整理自有赞中间件技术专家、Apache Dubbo PMC 华钟明的分享。本篇内容主要分为五个部分： -GraalVM 直面 Java 应用在云时代的挑战 -Dubbo 享受 AOT 带来的技术红利 -Dubbo Native Image 的实践和示例 -Dubbo…...

编程日记 2023/10/19 9:05:41

PCB命名规则-allegro

PCB命名规则-allegro 一、焊盘命名规则 1、贴片矩形焊盘命名规则：SMD长（L）宽（W）（mil） 举例：SMD90X60 2、贴片圆焊盘命名规则：SMDC焊盘直径（D&…...

编程日记 2023/10/19 9:04:40

[架构之路-240]：目标系统 - 纵向分层 - 应用层 - 应用层协议与业务应用程序的多样化，与大自然生物的丰富多彩，异曲同工

目录前言： - 倒金子塔结构 - 大自然的组成一、应用层在计算机系统中的位置 1.1 计算机应用程序的位置 1.1.1 业务应用程序概述 1.1.2 应用程序的分类 - 按照计算机作用范围 1.1.3 业务应用程序分类 - 按照行业分类 1.2 网络应用协议的位置 1.2.1 网络协…...

编程日记 2023/10/19 9:03:39

探索数字时代的核心：服务器如何塑造未来并助你成就大业

🌷🍁 博主猫头虎带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》文章图文并茂🦕生动形象🦖简单易学！欢迎大家来踩踩~🌺 &a…...

编程日记 2023/10/19 9:02:38

spring6-资源操作：Resources

资源操作：Resources 1、Spring Resources概述2、Resource接口3、Resource的实现类3.1、UrlResource访问网络资源3.2、ClassPathResource 访问类路径下资源3.3、FileSystemResource 访问文件系统资源3.4、ServletContextResource3.5、InputStreamResource3.6、ByteAr…...

编程日记 2023/10/19 9:01:36

C语言内存

内存分配内存分配的类型 C/C中内存分为5个区，分别为栈区、堆区、全局/静态存储区、常量存储区、代码区静态内存分配：编译时分配，包括全局、静态全局、静态局部三种变量。动态内存分配：运行时分配，包括栈&#x…...

编程日记 2023/10/19 9:00:35

Java设计模式之备忘录模式

备忘录模式（Memento Pattern）是一种行为型设计模式，它允许在不暴露对象内部状态的情况下捕获和恢复对象的内部状态。该模式通过在对象之外保存和恢复对象的状态，使得对象可以在需要时回滚到之前的状态。在备忘录模式中&#xff…...

编程日记 2023/10/19 8:59:34

深度学习 | Pytorch深度学习实践

一、overview 基于pytorch的深度学习的四个步骤基本如下： 二、线性模型 Linear Model 基本概念数据集分为测试集和训练集（训练集、开发集）训练集（x，y）测试集只给（x）过拟合&#xf…...

编程日记 2023/10/19 8:58:33

Elasticsearch7.9.3保姆级安装教程

Linux版本Elasticsearch版本(待安装)Kibana版本(待安装)CentOS 77.9.37.9.3 一、下载地址 1、官网下载打开地址 https://www.elastic.co/cn/downloads/past-releases#elasticsearch，按如图所示选择对应版本即可 2、采用wget下载为了不必要的麻烦，建…...

编程日记 2023/10/19 8:57:32

宁波网站建设科技有限公司/站长之家权重查询

了解如何针对评估、分析和性能来调整和调优 G1 GC。 2013 年 8 月发布垃圾优先型垃圾回收器 (G1 GC) 是适用于 Java HotSpot VM 的低暂停、服务器风格的分代式垃圾回收器。G1 GC 使用并发和并行阶段实现其目标暂停时间，并保持良好的吞吐量。当 G1 GC 确定有必要进…...

编程日记 2025/2/12 15:17:21

西安网站推广/网站推广的基本手段有哪些

转载于:https://www.cnblogs.com/6DAN_HUST/archive/2013/01/18/2866932.html...

编程日记 2025/2/12 14:31:51

做外贸一般用哪些网站好/饥饿营销案例

这两年少儿编程教育如火如荼，科技和政策的推动让家长越来越意识到编程的重要性。随着人工智能的发展和应用深入，编程也慢慢将成为每一个孩子的必备基础技能。但与此同时，也有很多国内家长对少儿编程这个词比较陌生，很多家长对少儿…...

编程日记 2025/2/12 9:40:40

医院网站建设招标说明/韶关新闻最新今日头条

最近，小米充电宝突然不能正常输出也不能充电了。具体现象是充电时四个灯同时闪烁，平时既也不能输出供电，也充不进电，但是电池电量显示正常。小米充电宝很好拆，无聊拆开看看也行哦。中午花了半小时把充电宝修好了。 …...

编程日记 2025/2/12 8:59:59

百度云图片转wordpress/湖南网站seo

文章目录七星难度SQL注入-2(字符布尔盲注)namp(nmap命令注入)shrine(Jinja SSTI)Web1(sql注入过滤)easy_login(nodejs JWT攻击)七星难度 SQL注入-2(字符布尔盲注) fuzz admin字段发现会有两种结果账号不存在，和账号和密码错误测试payload分别为admin and 11 and …...

编程日记 2025/2/12 6:35:06

揭阳网站制作服务/seo关键词排名报价

1、驱动包要升级为 mysql-connector-java-8.0.11.jar2、JDBC driver 由“com.mysql.jdbc.Driver”改为“com.mysql.cj.jdbc.Driver”3、url中加上“userSSLfalse”。否则会出现以下错误：“Establishing SSL connection withoutservers identity verification is not…...

编程日记 2025/2/12 5:48:51

拟合

欠拟合

过拟合

正确的拟合

解决过拟合的方法：正则化

相关文章：