数据挖掘英语及概念
分类 classify 上涨或跌
回归 regression 描述具体数值
分类模型评估
1.混淆(误差)矩阵 confusion matrix
2.ROC曲线 receiver operating characteristic curve 接收者操作特征曲线
3.AUC面积 area under curve ROC曲线下与坐标轴围成的面积,面积越大越好
DBN:深度信念网络 deep belief network
RBM:restricted Boltzman machine 受限玻尔兹曼机
CNN:卷积神经网络 convolution neural network
SAE:稀疏流自编码 Sparse Auto Encoder
算法 algorithm
拟合 fitting
过拟合 overfitting
欠拟合 underfitting
KDD知识发现 knowledge discovery in database
DM data mining
DL deep learning
ML machine learning
强度挖掘 intension Mining
关联规则挖掘association rule mining
FP-tree Frequent Pattern Tree
朴素贝叶斯:假设样本特征彼此独立,没有相关关系。
先验概率prior probability:根据以往经验和分析得到的概率
后验概率 posterior probability:事情已发生,判断事情发生时由哪个原因引起
联合概率joint probability:两个事情共同发生的概率
————————————————
- 聚类方法 clustering
基于密度的方法:Density-based approach
围绕中心点划分Partitioning Around Medoids (PAM)
基于模型的方法:Model-based approach
AGNES (AGglomerative NESting): 自底向上凝聚算法
DIANA (Divisive ANAlysis) 算法是典型的 分裂聚类方法 。
DBSCAN : Density-Based Spatial Clustering of Applications with Noise,噪声环境下的密度聚类算法
Web内容挖掘(Web Content Mining) : 对站点的Web页面的各类信息进行集成、概化、分类等,挖掘某类信息所蕴含的知识模式。
Web访问信息挖掘(Web Usage Mining) :Web访问信息挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘。通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以 发现潜在用户,增强站点的服务竞争力。
Web结构挖掘(Web Structure Mining): Web结构挖掘是对Web页 面之间的链接结构进行挖掘。在整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且也包含在页面的链接结构之中。 对于给定的Web页面集合,通过结构挖掘可以发现页面之间的关联 信息,页面之间的包含、引用或者从属关系等。
信息检索(Information Retrieval,IR)
1. 给出下列英文缩写或短语的中文名称和简单的含义。
(1) Data Mining
数据挖掘。简单地说就是从大型数据中挖掘所需要的知识。
(2) Artificial Intelligence
人工智能。简单地说就是研究如何应用机器来模拟人类某些智能行为的基本理论、方法和技
术的一门科学。
(3) Machine Learning
机器学习。简单地说就是研究如何使用机器来模拟人类学习活动的一门学科。
(4) Knowledge Engineering
知识工程。简单地说就是研究知识信息处理并探讨开发知识系统的技术。
(5) Information Retrieval
信息检索。简单地说就是研究合适的信息组织并根据用户需求快速而准确地查找信息的技
术。通常指的是计算机信息检索,它以计算机技术为手段,完成电子信息的汇集、存储和查
找等的相关技术。
(6) Data Visualization
数据可视化。简单地说就是运用计算机图形学和图像处理等技术,将数据换为图形或图像在
屏幕上显示出来。它是进行人机交互处理、数据解释以及提高系统可用性的重要手段。
2. 给出下列英文缩写或短语的中文名称和简单的含义。
(1) OLTP( On-Line Transaction Processing)
联机事务处理。指在计算机系统中实时处理大量事务的技术。主要应用于处理日常的交易信
息,如银行转账、网上购物等。
(2) OLAP( On-Line Analytic Processing)
联机分析处理。是一种支持数据分析和决策支持系统的技术,通常用于多维数据分析。OLAP
允许用户从不同角度查询和分析数据,用于复杂的报告和数据挖掘
(3) Decision Support
决策支持。是指为帮助管理人员作出决策而提供的信息、数据分析工具和系统的综合过程。
它包括数据收集、处理和分析,支持业务决策。
(4) KDD( Knowledge Discovery in Databases)
数据库中的知识发现。是指从大量数据中自动或半自动地提取出有用的模式或知识的过程。
它结合了数据挖掘、统计分析和人工智能等技术。
(5) Transaction Database
事务数据库。是指用于存储事务性数据的数据库,通常用于支持事务处理系统。数据包括用
户的交易记录、账户操作等,数据库需要保证数据一致性和可靠性。(6) Distributed Database
分布式数据库。是指数据存储在不同位置的数据库系统,可以跨越多个计算机或地点进行管
理和访问。分布式数据库系统能够提高系统的可靠性、可扩展性和性能。
1. 简单地描述下列英文缩写或短语的含义。
(1) Parallel Association Rule Mining
并行关联规则挖掘。它是指利用并行处理技术、使用并行挖掘算法或在并行计算的环境下
完成数据的高效挖掘工作。
(2) Quantities Association Rule Mining
数量关联规则挖掘。它是指对含有诸如工资、价钱等非离散的数值属性的数据进行挖掘
的技术。数量关联规则挖掘需要解决连续属性的离散化等问题,有更广泛的商业应用。
(3) Frequent Itemset
频繁项目集。它是指出现频率高的项目对应的集合,反映交易数据中项目出现的频度信
息。挖掘频繁项目集是关联规则挖掘的基础,许多关联规则挖掘方法是基于频繁项目集发
现的。
(4) Maximal Frequent Itemset
最大频繁项目集。它是指在频繁项目集中不出现相互包含的项目子集。最大频繁项目集
可以使用最少的信息来保证频度信息的不丢失。
(5) Closed Itemset
关闭(或闭合)项目集。简单地说,对于一个关闭项目集的任何元素,要么不被任何元素所
包含,要么只被小于它的支持度的元素所包含。
2. 解释下列概念
(1) 多层次关联规则
Multilevel Association Rules 关注不同抽象层次的规则
(2) 多维关联规则
Multidimensional Association Rules 关注多个维度(如时间、地点等)之间的规则
(3) 事务数据库
Transactional Database 记录各种交易或事件的数据库
(4) 购物篮分析
Market Basket Analysis 分析商品购买之间的关联
(5)强关联规则
Strong Association Rules 具有高支持度、置信度和提升度的有用规则
1. 简单地描述下列英文缩写或短语的含义。
(1) Data Classification
数据分类。用分类模型(也常常称为分类器)把数据库中的数据项映射到给定类别中的某一个
类别。
(2) k-Nearest Neighbors
k-最邻近方法。它是一种基于距离的分类算法。
(3) Decision Tree
决策树。决策树是一种类似于流程图的树结构,其中每个内部结点表示在一个属性上的测试,
每个分支代表一个测试输出,而每个树叶结点代表类或类分布。树的最顶层结点是根结点。
决策树表示方法是分类中应用最广泛的方法之一。
(4) Entropy
熵。在信息论中,熵是一种信息度量单位。在决策树构造算法中根据熵值来计算信息增益。
(5) Posterior Probability
后验概率。后验概率又被称为条件概率,是在已知结果发生的情况下,求导致结果的某种原
因的可能性的大小
1. 简单地描述下列英文缩写或短语的含义。
(1) Partitioning Method
划分法。它将数据划分为k个组,同时满足如下的要求:每个组至少包含一个对象;每个对
象必须属于且只属于一个组。
(2) Hierarchical Method
层次法。它是对给定数据对象集合进行层次的分解。其基本思想是将模式样本按距离准则逐
步聚类,直到满足分类要求为止。根据层次的分解如何形成,层次的方法又可以分为凝聚的
和分裂的。
(3) Density-based Method
基于密度的方法。它将具有相同密度域的连通区域作为一簇。因此,它需要扫描整个数据集,
将数据空间划分为不同的小方格,并使用小方格的并集来近似表示簇。
(4) Grid-based Method
基于网格的方法。这种方法首先将数据空间划分成为有限个单元( Cell)的网格结构,所有
的处理都是以单个单元为对象的。这样处理的一个突出优点是处理速度快,通常与目标数据
库中记录的个数无关,只与把数据空间分为多少个单元有关。
2. 简单地描述下列英文缩写或短语的含义。
(I) PAM
PAM (Partitioning Around Medoids)
含义:PAM是一种聚类算法,类似于K-means,但它通过选择实际的样本点作为中心(称为
“medoids”)来进行聚类,而不是计算均值(如K-means)。PAM的目标是将数据集分成K个簇,
使得每个簇中的所有数据点与簇中心的距离最小化。
(2) STING
STING (Statistical Information Grid)
含义:STING是一种用于空间数据挖掘的聚类算法,特别适用于处理地理信息系统(GIS)或
空间数据集。该算法通过将空间区域划分成多个网格,并在网格内进行统计信息计算,从而
快速识别数据的聚类结构。STING采用自底向上的方式,结合空间和统计信息进行聚类。
(3) DBSCAN
DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
含义:DBSCAN是一种基于密度的聚类算法,它通过密度来定义簇。该算法的核心思想是:密
集区域内的点属于同一簇,而稀疏区域的点则被视为噪声或离群点。DBSCAN不需要预先指定
簇的数量,而是根据数据的密度自动发现簇的结构。DBSCAN需要两个参数:ε(半径阈值)
和MinPts(密度阈值,即簇的最小点数)。
相关文章:

数据挖掘英语及概念
分类 classify 上涨或跌 回归 regression 描述具体数值 分类模型评估 1.混淆(误差)矩阵 confusion matrix 2.ROC曲线 receiver operating characteristic curve 接收者操作特征曲线 3.AUC面积 area under curve ROC曲线下与坐标轴围成的面积&#x…...

springboot第82集:消息队列kafka,kafka-map
官网下载链接:https://kafka.[apache].org/downloads 我下载的是[Scala]2.12 - kafka_2.12-3.1.0.tgz kafka只需要解压下载的压缩包就行了,我这里解压的路径是D:\kafka_2.12-3.1.0,kafka的运行需要依赖zookeeper,当前版本已经内置…...

sql server查看当前正在执行的sql
#统计某类sql执行次数,并按总体cpu消耗时间降序排序 with a as ( select er.session_id,db_name(er.database_id) as DBNAME,sy.last_batch AS 最后执行时间, er.cpu_time ,er.total_elapsed_time/1000 as sum_elapsed_time_s, CAST(csql.text AS varchar(8000)) A…...

STM32设计学生宿舍监测控制系统-分享
目录 前言 一、本设计主要实现哪些很“开门”功能? 二、电路设计原理图 电路图采用Altium Designer进行设计: 三、实物设计图 四、程序源代码设计 五、获取资料内容 前言 本项目旨在利用STM32单片机为核心,结合传感器技术、无线通信技…...

HAproxy 详解
一、基本概念 1.1 什么是 HAproxy? HAproxy(High Availability Proxy)是一个开源的高性能负载均衡器和反向代理服务器,它主要用于在网络上分发流量,以提高网站或应用程序的可用性和性能。HAproxy 可以处理大量的并发…...

间接采购管理:主要挑战与实战策略
间接采购支出会悄然消耗掉企业的现金流,即使是管理完善的公司也难以避免。这是因为间接支出不直接关联特定客户、产品或项目,使采购人员难以跟踪。但正确管理间接支出能为企业带来显著收益——前提是要有合适的工具。本文将分享管理间接支出的关键信息与…...

2411rust,正与整128
原文 长期以来,Rust在x86-32和x86-64架构上128位整数的对齐与C语言不一致.最近已解决此问题,但该修复带来了一些值得注意的效果. 作为用户,除非如下,否则不用担心: 1,假设i128/u128对齐,而不是用align_of 2,忽略improper_ctypes*检查,并在FFI中使用这些类. 除x86-32和x86-64…...

将 HTML 转换为 JSX:JSX 和 JSX 规则
JSX 是 JavaScript 的语法扩展。您可以在 JavaScript 文件中编写 HTML 格式。 它基于 Web、Html、Css 和 JavaScript。Web 开发人员将页面内容分别编写为 Html 文件,将设计编写为 Css 文件,将逻辑编写为 JavaScript 文件。 须知 : JSX 是一个…...

将 FastAPI 部署到生产服务器(一套 全)
将 FastAPI 部署到生产服务器(全) 文章目录 将 FastAPI 部署到生产服务器(全)一、前言二、Fastapi项目 生产环境配置1. 准备环境2. 编写 FastAPI 应用3. 使用 Uvicorn 运行应用4. 配置生产级服务器 Gunicorn4.1 配置 Gunicorn 和 …...

题解 洛谷 Luogu P1873 [COCI 2011/2012 #5] EKO / 砍树 二分答案 C/C++
题目传送门: P1873 [COCI 2011/2012 #5] EKO / 砍树 - 洛谷 | 计算机科学教育新生态https://www.luogu.com.cn/problem/P1873思路: 很简单的二分答案 每次找区间中点 m,判断以 m 为高度砍下的木头是否够 h 即可 代码: #defin…...

SpringCloud SaToken整合微服务 集成Redis 网关路由权限拦截 服务间内部调用鉴权
介绍 作为 API 网关,通常负责路由、负载均衡、安全控制等功能。进行 统一鉴权 的做法意味着将所有微服务的认证和授权逻辑集中到网关层,而不是每个微服务单独实现。这样做有许多好处,微服务只关心核心业务逻辑,不需要处理身份验证…...

Oracle ADB 导入 BANK_GRAPH 的学习数据
Oracle ADB 导入 BANK_GRAPH 的学习数据 1. 下载数据2. 导入数据运行 setconstraints.sql 1. 下载数据 访问 https://github.com/oracle-quickstart/oci-arch-graph/tree/main/terraform/scripts,下载, bank_accounts.csvbank_txns.csvsetconstraints.…...

优化 MFC CGridCtrl 的表格布局与功能
在使用 MFC 的 CGridCtrl 控件创建表格时,遇到的一个典型问题是,当表格滚动条出现时,最后一列会显示空白。这篇博客将记录解决这一问题的详细过程,同时总结了 CGridCtrl 初始化及优化的关键步骤,帮助开发者快速搭建一个…...

koa-body 的详细使用文档
目录 koa-body install Features Hello World - Quickstart Usage with koa-router Usage with unsupported text body type Options 关于 parsedMethods 的说明 文件支持 关于未解析请求主体的说明 一些强大的选择 使用总结 koa-body 功能齐全的 koa body 解析器中…...

信息系统与互联网中的安全、隐私及伦理问题
1 伦理(Ethics) 1.1 伦理框架(Ethical Frameworks) 自然法与权利(Natural Law and Rights) 定义:基于人类自然权利的伦理思想,强调生命、自由和财产等基本权利。应用:隐…...

Java安全—log4j日志FastJson序列化JNDI注入
前言 log4j和fastjson都是这几年比较火的组件,前者是用于日志输出后者则是用于数据转换,今天我们从源码来说一下这两个组件为何会造成漏洞。 实验环境 这里的idea要进行一下配置,因为我们要引用第三方组件,而这些第三方组件都是…...

【STM32开发笔记】移植AI框架TensorFlow到STM32单片机【DSP指令加速篇】
【STM32开发笔记】移植AI框架TensorFlow到STM32单片机【DSP指令加速篇】 一、前文回顾二、CMSIS-NN简介2.1 为什么介绍CMSIS-NN?2.2 CMSIS-NN是什么?2.3 CMSIS-NN核心特性2.4 CMSIS-NN算子支持 三、TFLMCMSIS-NN集成3.1 包含TFLM的STM32项目3.2 理解TFLM…...

Python中如何判断一串文本是不是数字
目录 1. 内置函数2. 尝试类型转换3. 正则表达式 在编程中,我们经常需要确定一段文本是否为数字。 这不仅关系到数据的准确性,还涉及到后续的计算和处理。 1. 内置函数 在Python中,可以使用str.isdigit()、str.isnumeric()和str.isdecimal()…...

基于YOLOv8深度学习的智慧农业山羊行为检测系统研究与实现(PyQt5界面+数据集+训练代码)
随着智慧农业的快速发展,利用先进的技术手段对牲畜的行为进行自动化监测和管理,已经成为现代农业中的重要研究方向之一。在传统的农业管理模式中,牲畜的行为监测通常依赖于人工观测,耗时耗力且难以实现大规模实时监控。然而&#…...

Redis环境部署(主从模式、哨兵模式、集群模式)
一、概述 REmote DIctionary Server(Redis) 是一个由 Salvatore Sanfilippo 写的 key-value 存储系统,是跨平台的非关系型数据库。Redis 是一个开源的使用 ANSI C 语言编写、遵守 BSD 协议、支持网络、可基于内存、分布式、可选持久性的键值对(Key-Value)存储数据库…...

高阶C语言之六:程序环境和预处理
本文介绍程序的环境,在Linux下对编译链接理解,较为简短,着重在于编译的步骤。 C的环境 在ANSI C(标准C语言)的任何一种实现中,存在两个不同的环境。 翻译环境:在这个环境中,源代码…...

Vue 3 国际化 (i18n) 最佳实践指南
1. 安装依赖 npm install vue-i18n@9 2. 项目结构建议 src/ ├── i18n/ │ ├── index.ts # i18n 配置文件 │ ├── languages/ # 语言文件目录 │ │ ├── zh-CN.ts # 中文 │ │ ├── en-US.ts # 英文 │ │ └─…...

Acme PHP - Let‘s Encrypt
Lets Encrypt是一个于2015年三季度推出的数字证书认证机构,旨在以自动化流程消除手动创建和安装证书的复杂流程,并推广使万维网服务器的加密连接无所不在,为安全网站提供免费的SSL/TLS证书。 使用PHP来更新证书: Acme PHP | Rob…...

获取DOM 节点的四大方式
前言: 在 Vue 中,获取 DOM 节点可以通过多种方式,如自定义属性、ref 引用、类选择器和 ID 选择器等。 一、使用 ref 获取 DOM 实例 ref 是 Vue 中推荐的获取 DOM 节点的方式,它为每个节点分配一个唯一的引用,可以直…...

ROS2 Humble 机器人建模和Gazebo仿真
一.Ubuntu22.04系统虚拟机安装 1.下载镜像并安装 Index of /ubuntu-releases/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror 2.安装选英文版,安装类型选清除磁盘。 3.遇到无法复制windows内容到虚拟机里。需安装VMware tools。VMware tools安装不了&a…...

docker容器镜像的制作、使用以及传递
目录 制作容器镜像使用Dockerfile制作镜像准备所需文件构建镜像怎么不使用基础镜像来构建容器镜像 使用容器镜像传递容器镜像 这篇文章讨论一下怎么使用docker制作容器镜像,容器镜像的使用,以及怎么传递容器镜像。 制作容器镜像 docker制作容器镜像推荐…...

一种由于吸入硅酸盐粉尘而引起的肺部疾病:pneumonoultramicroscopicsilicovolcanoconiosis
有人说,pneumonoultramicroscopicsilicovolcanoconiosis是英语中最长的单词,这是一个医学词汇,意思是指:一种由于吸入硅酸盐粉尘而引起的肺部疾病。 pneumonoultramicroscopicsilicovolcanoconiosis [ˈnju:mənəuˌʌltrəˌmai…...

百度AI人脸检测与对比
1.注册账号 打开网站 https://ai.baidu.com/ ,注册百度账号并登录 2.创建应用 3.技术文档 https://ai.baidu.com/ai-doc/FACE/yk37c1u4t 4.Spring Boot简单集成测试 pom.xml 配置: <!--百度AI--> <dependency> <groupId>com.baidu.…...

贴代码框架PasteForm特性介绍之outer,outers,object,objects,outerdisplay
简介 PasteForm是贴代码推出的 “新一代CRUD” ,基于ABPvNext,目的是通过对Dto的特性的标注,从而实现管理端的统一UI,借助于配套的PasteBuilder代码生成器,你可以快速的为自己的项目构建后台管理端!目前管…...

sql数据库-权限控制-DCL
目录 常用权限类别 查询用户权限 举例 授予用户权限 删除权限 常用权限类别 权限说明ALL,ALL PRIVILEGES所有权限SELECT查询数据INSERT插入数据UPDATE修改数据DELETE删除数据ALTER修改表DROP删除数据库/表/视图CREATE创建数据库/表 查询用户权限 show grants for 用户名…...