当前位置：首页 > news >正文

2023年高教社杯数学建模思路 - 案例：FPTree-频繁模式树算法

news 文章来源：https://blog.csdn.net/math_assistant/article/details/132497691 2024/9/21 8:02:03

文章目录

- 算法介绍
- FP树表示法
- 构建FP树
- 实现代码
建模资料

## 赛题思路

（赛题出来以后第一时间在CSDN分享）

https://blog.csdn.net/dc_sinor?type=blog

算法介绍

FP-Tree算法全称是FrequentPattern Tree算法，就是频繁模式树算法，他与Apriori算法一样也是用来挖掘频繁项集的，不过不同的是，FP-Tree算法是Apriori算法的优化处理，他解决了Apriori算法在过程中会产生大量的候选集的问题，而FP-Tree算法则是发现频繁模式而不产生候选集。但是频繁模式挖掘出来后，产生关联规则的步骤还是和Apriori是一样的。

常见的挖掘频繁项集算法有两类，一类是Apriori算法，另一类是FP-growth。Apriori通过不断的构造候选集、筛选候选集挖掘出频繁项集，需要多次扫描原始数据，当原始数据较大时，磁盘I/O次数太多，效率比较低下。FPGrowth不同于Apriori的“试探”策略，算法只需扫描原始数据两遍，通过FP-tree数据结构对原始数据进行压缩，效率较高。

FP代表频繁模式（Frequent Pattern) ，算法主要分为两个步骤：FP-tree构建、挖掘频繁项集。

FP树表示法

FP树通过逐个读入事务，并把事务映射到FP树中的一条路径来构造。由于不同的事务可能会有若干个相同的项，因此它们的路径可能部分重叠。路径相互重叠越多，使用FP树结构获得的压缩效果越好；如果FP树足够小，能够存放在内存中，就可以直接从这个内存中的结构提取频繁项集，而不必重复地扫描存放在硬盘上的数据。

一颗FP树如下图所示：
　　在这里插入图片描述
通常，FP树的大小比未压缩的数据小，因为数据的事务常常共享一些共同项，在最好的情况下，所有的事务都具有相同的项集，FP树只包含一条节点路径；当每个事务都具有唯一项集时，导致最坏情况发生，由于事务不包含任何共同项，FP树的大小实际上与原数据的大小一样。

FP树的根节点用φ表示，其余节点包括一个数据项和该数据项在本路径上的支持度；每条路径都是一条训练数据中满足最小支持度的数据项集；FP树还将所有相同项连接成链表，上图中用蓝色连线表示。

为了快速访问树中的相同项，还需要维护一个连接具有相同项的节点的指针列表（headTable），每个列表元素包括：数据项、该项的全局最小支持度、指向FP树中该项链表的表头的指针。
　　在这里插入图片描述

构建FP树

现在有如下数据：

在这里插入图片描述

FP-growth算法需要对原始训练集扫描两遍以构建FP树。

第一次扫描，过滤掉所有不满足最小支持度的项；对于满足最小支持度的项，按照全局最小支持度排序，在此基础上，为了处理方便，也可以按照项的关键字再次排序。
在这里插入图片描述

第二次扫描，构造FP树。

参与扫描的是过滤后的数据，如果某个数据项是第一次遇到，则创建该节点，并在headTable中添加一个指向该节点的指针；否则按路径找到该项对应的节点，修改节点信息。具体过程如下所示：

在这里插入图片描述

　从上面可以看出，headTable并不是随着FPTree一起创建，而是在第一次扫描时就已经创建完毕，在创建FPTree时只需要将指针指向相应节点即可。从事务004开始，需要创建节点间的连接，使不同路径上的相同项连接成链表。

实现代码

def loadSimpDat():simpDat = [['r', 'z', 'h', 'j', 'p'],['z', 'y', 'x', 'w', 'v', 'u', 't', 's'],['z'],['r', 'x', 'n', 'o', 's'],['y', 'r', 'x', 'z', 'q', 't', 'p'],['y', 'z', 'x', 'e', 'q', 's', 't', 'm']]return simpDatdef createInitSet(dataSet):retDict = {}for trans in dataSet:fset = frozenset(trans)retDict.setdefault(fset, 0)retDict[fset] += 1return retDictclass treeNode:def __init__(self, nameValue, numOccur, parentNode):self.name = nameValueself.count = numOccurself.nodeLink = Noneself.parent = parentNodeself.children = {}def inc(self, numOccur):self.count += numOccurdef disp(self, ind=1):print('   ' * ind, self.name, ' ', self.count)for child in self.children.values():child.disp(ind + 1)def createTree(dataSet, minSup=1):headerTable = {}#此一次遍历数据集， 记录每个数据项的支持度for trans in dataSet:for item in trans:headerTable[item] = headerTable.get(item, 0) + 1#根据最小支持度过滤lessThanMinsup = list(filter(lambda k:headerTable[k] < minSup, headerTable.keys()))for k in lessThanMinsup: del(headerTable[k])freqItemSet = set(headerTable.keys())#如果所有数据都不满足最小支持度，返回None, Noneif len(freqItemSet) == 0:return None, Nonefor k in headerTable:headerTable[k] = [headerTable[k], None]retTree = treeNode('φ', 1, None)#第二次遍历数据集，构建fp-treefor tranSet, count in dataSet.items():#根据最小支持度处理一条训练样本，key:样本中的一个样例，value:该样例的的全局支持度localD = {}for item in tranSet:if item in freqItemSet:localD[item] = headerTable[item][0]if len(localD) > 0:#根据全局频繁项对每个事务中的数据进行排序,等价于 order by p[1] desc, p[0] descorderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: (p[1],p[0]), reverse=True)]updateTree(orderedItems, retTree, headerTable, count)return retTree, headerTabledef updateTree(items, inTree, headerTable, count):if items[0] in inTree.children:  # check if orderedItems[0] in retTree.childreninTree.children[items[0]].inc(count)  # incrament countelse:  # add items[0] to inTree.childreninTree.children[items[0]] = treeNode(items[0], count, inTree)if headerTable[items[0]][1] == None:  # update header tableheaderTable[items[0]][1] = inTree.children[items[0]]else:updateHeader(headerTable[items[0]][1], inTree.children[items[0]])if len(items) > 1:  # call updateTree() with remaining ordered itemsupdateTree(items[1:], inTree.children[items[0]], headerTable, count)def updateHeader(nodeToTest, targetNode):  # this version does not use recursionwhile (nodeToTest.nodeLink != None):  # Do not use recursion to traverse a linked list!nodeToTest = nodeToTest.nodeLinknodeToTest.nodeLink = targetNodesimpDat = loadSimpDat()
dictDat = createInitSet(simpDat)
myFPTree,myheader = createTree(dictDat, 3)
myFPTree.disp()

上面的代码在第一次扫描后并没有将每条训练数据过滤后的项排序，而是将排序放在了第二次扫描时，这可以简化代码的复杂度。

控制台信息：

在这里插入图片描述

建模资料

资料分享: 最强建模资料
在这里插入图片描述

2023年高教社杯数学建模思路 - 案例：FPTree-频繁模式树算法

文章目录算法介绍FP树表示法构建FP树实现代码建模资料 ## 赛题思路 （赛题出来以后第一时间在CSDN分享） https://blog.csdn.net/dc_sinor?typeblog 算法介绍 FP-Tree算法全称是FrequentPattern Tree算法，就是频繁模式树算法&#xff0c…...

编程日记 2023/8/26 12:20:24

批量根据excel数据绘制饼状图

要使用Python批量根据Excel数据绘制饼状图，可以使用pandas和matplotlib库来实现。以下是一个基本的代码示例： import pandas as pd import matplotlib.pyplot as plt # 读取Excel文件 data pd.read_excel(data.xlsx) # 提取需要用于绘制饼状图的数据列…...

编程日记 2023/8/26 12:19:23

C++头文件和std命名空间

C 是在C语言的基础上开发的，早期的 C 还不完善，不支持命名空间，没有自己的编译器，而是将 C 代码翻译成C代码，再通过C编译器完成编译。这个时候的 C 仍然在使用C语言的库，stdio.h、stdlib.h、string.h 等头…...

编程日记 2023/8/26 12:18:22

浏览器有哪几种缓存?各种缓存之间的优先级

在浏览器中，有以下几种常见的缓存： 1、强制缓存：通过设置 Cache-Control 和 Expires 等响应头实现，可以让浏览器直接从本地缓存中读取资源而不发起请求。2、协商缓存：通过设置 Last-Modified 和 ETag 等响应头实现&am…...

编程日记 2023/8/26 12:17:21

【C++】list

list 1. 简单了解list2. list的常见接口3. 简单实现list4. vector和list比较 1. 简单了解list list的底层是带头双向循环列表。因此list支持任意位置的插入和删除，且效率较高。但其缺陷也很明显，由于各节点在物理空间是不连续的，所以不支持对…...

编程日记 2023/8/26 12:16:19

剪枝基础与实战(2): L1和L2正则化及BatchNormalization讲解

1. CIFAR10 数据集 CIFAR10 是深度学习入门最先接触到的数据集之一，主要用于图像分类任务中，该数据集总共有10个类别。图片数量：6w 张图片宽高：32x32图片类别：10Trainset: 5w 张，5 个训练块Testset: 1w 张，1 个测试块Pytorch 集成了很多常见数据集的API，可以通过py…...

编程日记 2023/8/26 12:15:18

C语言学习笔记---指针进阶01

C语言程序设计笔记---016 C语言指针进阶前篇1、字符指针2、指针数组2.1、指针数组例程1 -- 模拟一个二维数组2.2、指针数组例程2 3、数组指针3.1、回顾数组名？3.2、数组指针定义与初始化（格式）3.3、数组指针的作用 --- 常用于二维数组3.4、数…...

编程日记 2023/8/26 12:14:17

【Go 基础篇】Go 语言字符串函数详解：处理字符串进阶

大家好！继续我们关于Go语言中字符串函数的探索。字符串是编程中常用的数据类型，而Go语言为我们提供了一系列实用的字符串函数，方便我们进行各种操作，如查找、截取、替换等。在上一篇博客的基础上，我们将继续介绍更多字…...

编程日记 2023/8/26 12:13:15

模型架构代码数据准备 import os import time import matplotlib.pyplot as plt import numpy as np import torchvision.transforms as transforms from torch.utils.data import DataLoader from torchvision import datasets import torch.nn as nn import torch# 创建文…...

编程日记 2023/8/26 12:12:13

HTML的label标签有什么用？

当你想要将表单元素（如输入框、复选框、单选按钮等）与其描述文本关联起来，以便提供更好的用户界面和可访问性时，就可以使用HTML中的<label>标签。<label>标签用于为表单元素提供标签或标识，使用户能够更清…...

编程日记 2023/8/26 12:11:12

docker在阿里云上的镜像仓库管理

目录一.登录进入阿里云网站，点击个人实例进行创建二.创建仓库，填写相关信息三.在访问凭证中设置固定密码用于登录，登录时用户名是使用你注册阿里云的账号名称，密码使用设置的固定密码四.为镜像打标签并推送到仓库五.拉取…...

编程日记 2023/8/26 12:10:11

html-dom核心内容--四要素

1、结构 HTML DOM (文档对象模型) 当网页被加载时，浏览器会创建页面的文档对象模型（Document Object Model）。 2、核心关注的内容：“元素”，“属性”，“修改样式”，“事件反应”。>四要素…...

编程日记 2023/8/26 12:09:08

golang的继承

golang中并没有继承以及oop，但是我们可以通过struct嵌套来完成这个操作。定义struct 以下定义了一个Person结构体，这个结构体有Eat方法以及三个属性 type Person struct {Name stringAge uint16Phone string }func (recv *Person) Eat() {fmt.Prin…...

编程日记 2023/8/26 12:08:07

Google Play商店优化排名因素之应用截图与视频

屏幕截图是影响转化率的最重要的视觉效果之一。大多数人只需查看应用程序屏幕截图，就会决定是否尝试去下载我们的应用程序。 1、在Google Play商店中，搜索结果页面根据我们搜索的关键词有不同的样式。展示应用程序中最好的部分，添加一些文字…...

编程日记 2023/8/26 12:07:06

fastadmin iis伪静态应用入口文件index.php

<?xml version"1.0" encoding"UTF-8"?> <configuration><system.webServer><rewrite><rules><rule name"OrgPage" stopProcessing"true"><match url"^(.*)$" /><conditions…...

编程日记 2023/8/26 12:06:05

0821|C++day1 初步认识C++

一、思维导图二、知识点回顾【1】QT软件的使用 1）创建文件创建文件时，文件的路径一定是全英文 2）修改编码工具--->选项--->行为--->默认编码：system 【2】C和C的区别 C又叫C plus plus，C是对C的扩充&…...

编程日记 2023/8/26 12:05:04

Linux上实现分片压缩及解压分片zip压缩包 - 及zip、unzip命令详解

👨‍🎓博主简介 🏅云计算领域优质创作者 🏅华为云开发者社区专家博主 🏅阿里云开发者社区专家博主 💊交流社区：运维交流社区欢迎大家的加入！ 🐋 希望大家多多支…...

编程日记 2023/8/26 12:04:01

概率论作业啊啊啊

1 数据位置 (Measures of location) 对于数据集: 7 , 9 , 9 , 10 , 10 , 11 , 11 , 12 , 12 , 12 , 13 , 14 , 14 , 15 , 16 7,9,9,10,10,11,11,12,12,12,13,14,14,15,16 7,9,9,10,10,11,11,12,12,12,13,14,14,15,16 计算加权平均数，其中权重为: 2 , 1 , 3 , 2 ,…...

编程日记 2023/8/26 12:03:00

React re-render

What is？ react的渲染分为两个阶段: render，组件第一次出现在屏幕上的时候触发re-render， 组件第一次渲染之后的渲染当app的数据更新时(用户手动更新、或异步请求)。 When？ re-render发生有四种可能： state改变…...

编程日记 2023/8/26 12:01:59

从零开始配置Jenkins与GitLab集成：一步步实现持续集成

在软件开发中，持续集成是确保高效协作和可靠交付的核心实践。以下是在CentOS上安装配置Jenkins与GitLab集成的详细步骤： 1.安装JDK 解压JDK安装包并设置环境变量： JDK下载网址 Java Downloads | Oracle 台灣 tar zxvf jdk-11.0.5_linux-x64_b…...

编程日记 2023/8/26 12:00:58

高效多用的群集-Haproxy搭建Web集群

Haproxy搭建 Web 群集一、Haproxy前言 HAProxy是一个使用c语言编写的自由及开放源代码软件，其提供高可用性、负载均衡，以及基于TcP和HrrP的应用程序代理。HAProxy特别适用于那些负载特大的web站点，这些站点通常又需要会话保持或七层处理。…...

编程日记 2023/8/26 11:59:57

aws的s3匿名公开访问

点击桶权限 ，添加策略 {"Version": "2012-10-17","Statement": [{"Sid": "AddPerm","Effect": "Allow","Principal": "*","Action": "s3:GetObject&qu…...

编程日记 2023/8/26 11:58:55

2023科隆游戏展：虚幻5游戏百花齐放，云渲染助力虚幻5高速渲染

8月23日，欧洲权威级游戏展示会——科隆游戏展拉开帷幕。今年的参展游戏也相当给力，数十款游戏新预告片在展会上公布，其中有不少游戏使用虚幻5引擎制作，开创了游戏开发新纪元。虚幻5游戏百花齐放，渲染堪比电影级效果 …...

编程日记 2023/8/26 11:57:54

Spark大数据分析与实战笔记（第一章 Scala语言基础-2）

文章目录章节概要1.2 Scala的基础语法1.2.1 声明值和变量1.2.2 数据类型1.2.3 算术和操作符重载1.2.4 控制结构语句1.2.5 方法和函数章节概要 Spark是专为大规模数据处理而设计的快速通用的计算引擎，它是由Scala语言开发实现的，关于大数据技术&#xf…...

编程日记 2023/8/26 11:56:52

Linux 下 Mysql 的使用（Ubuntu20.04）

文章目录一、安装二、使用2.1 登录2.2 数据库操作2.2.1 创建数据库2.2.2 删除数据库2.2.3 创建数据表参考文档一、安装 Linux 下 Mysql 的安装非常简单，一个命令即可： sudo apt install mysql-server检查安装是否成功，输入： …...

编程日记 2023/8/26 11:55:51

牛客练习赛114

A.最后有0得数肯定是10得倍数，然后直接排序即可 #include<bits/stdc.h> using namespace std; const int N 1e610,mod1e97; int n; void solve(){cin>>n;vector<int> a(n);for(auto&i:a) cin>>i;sort(a.begin(),a.end(),greater<&g…...

编程日记 2023/8/26 11:54:48

Http与Https

1.简单介绍 HTTP：最广泛应用的网络通信协议，基于TCP，数据传输简单高效，数据是明文。 HTTPS：是HTTP的加强版，是HTTPSSL。在HTTP的基础上加了安全机制，一方面保证数据的安全传输，另一…...

编程日记 2023/8/26 11:53:47

前端通信（渲染、http、缓存、异步、跨域）自用笔记

SSR/CSR：HTML拼接？网页源码？SEO/交互性 SSR （server side render）服务端渲染，是指由服务侧（server side）完成页面的DOM结构拼接，然后发送到浏览器，为其绑定状…...

编程日记 2023/8/26 11:52:46

43.227.198.x怎么检查服务器里是否中毒情况?

要检查43.227.198.1服务器是否中毒，可以执行以下步骤： 运行杀毒软件：运行已安装的杀毒软件进行全盘扫描，查看是否有病毒或恶意软件。如果发现病毒或恶意软件，立即将其删除或隔离。检查系统文件：检查服务器…...

编程日记 2023/8/26 11:51:44

Sentinel dashboard无法查询到应用的限流配置问题以及解决

一。问题引入使用sentinle-dashboard控制台项目整体升级后，发现控制台上无法看到流控规则了之前的问题是无法注册上来现在是注册上来了。结果看不到流控规则配置了。关于注册不上来的问题，可以看另一篇文章 https://blog.csdn.net/a15835774652/…...

编程日记 2023/8/26 11:50:43

【Spring Boot】社交网站中验证用户登录的checkUser方法

public boolean checkUser(User user) {User userInDb userRepository.findByUsername(user.getUsername());if (userInDb ! null && userInDb.getPassword().equals(user.getPassword())) {return true;} else {return false;}} } 这段代码是UserService类中的checkU…...

编程日记 2023/8/26 11:49:41

edge浏览器进行qq截图过保爆决过程

edge浏览器进行qq截图过保解决过程参考：电脑截屏曝光特别高怎么解决？ - 知乎问题展示饱和度过高，刺眼 1. 在chrome地址栏输入chrome://flags/ 2. 在页面的搜索栏搜索force color profile 3. 在选项中选择所对应的颜色管理。&#xff08…...

编程日记 2023/8/26 11:48:39

【Linux】Linux在防火墙firewall中开放或删除某端口

在生产中往往是不能关闭防火墙firewall的（以下操作是在linux中执行的） #补充一下查看防火墙的命令 #查看防火墙状态 systemctl status firewalld #关闭防火墙 systemctl stop firewalld #重启防火墙 systemctl restart firewalld #启动防火墙 systemctl …...

编程日记 2023/8/26 11:47:39

C++构造函数初始化列表

构造函数的一项重要功能是对成员变量进行初始化，为了达到这个目的，可以在构造函数的函数体中对成员变量一一赋值，还可以采用初始化列表。 C构造函数的初始化列表使得代码更加简洁，请看下面的例子： #include <iostre…...

编程日记 2023/8/26 11:46:38

c语言调用mciSendString播放音乐

如下所示，这是一个使用c语言调用系统方法mciSendString()，让系统播放音乐的示例： baihuaxiang 代码： #include <graphics.h> #include <Windows.h> #include <mmsystem.h>#pragma comment(lib,"WINMM.LIB…...

编程日记 2023/8/26 11:45:37

Qt：qRegisterMetaType为Qt信号和槽添加自定义参数类型

背景 qt信号和槽之间的参数传递默认只能传递qt内部已有的类型，例如QString等，若我们自定义类型作为参数时，虽然编译不会报错，但运行时会提示connect无效，无法识别自定义的类。此时需要我们将自定义类进行注册&#…...

编程日记 2023/8/26 11:44:35

ffmpeg rtp发送video和audio并播放

发送h264 video ffmpeg -re -stream_loop -1 -i h264.mp4 -vcodec h264 -f rtp rtp://127.0.0.1:5006SDP: v0 o- 0 0 IN IP4 127.0.0.1 sNo Name cIN IP4 127.0.0.1 t0 0 atool:libavformat LIBAVFORMAT_VERSION mvideo 5006 RTP/AVP 96 artpmap:96 H264/90000 afmtp:96 packe…...

编程日记 2023/8/26 11:43:34