哈希及哈希表的实现
目录
一、哈希的引入
二、概念
三、哈希冲突
四、哈希函数
常见的哈希函数
1、直接定址法
2、除留余数法
五、哈希冲突的解决
1、闭散列
2、开散列
一、哈希的引入
顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键码的多次比较。顺序查找时间复杂度为O(N),平衡树中为树的高度,即O(log_2 N),搜索的效率取决于搜索过程中元素的比较次数。
理想的搜索方法:可以不经过任何比较,一次直接从表中得到要搜索的元素。这种思想就是我们接下来要讲的哈希了。
二、概念
如果构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立
一一映射的关系,那么在查找时通过该函数可以很快找到该元素。
当向该结构中:
插入元素:根据待插入元素的关键码,以此函数计算出该元素的存储位置并按此位置进行存放。
搜索元素:对元素的关键码进行同样的计算,把求得的函数值当做元素的存储位置,在结构中按此位置取元素比较,若关键码相等,则搜索成功。
该方式即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表(Hash Table)(或者称散列表)。
当有这些数据时:1,4,5,6,7,9。我们可以通过下图的方式去插入数据。

用该方法进行搜索不必进行多次关键码的比较,因此搜索的速度比较快。
三、哈希冲突
按照上面的方式,如果我们插入的是 1,2,32,222,7,9这几个数呢?
我们发现,如果按照哈希的思想去插入的话,2,32,22将会被放在同一个位置,这样就会引起一些麻烦。如果我去访问下标为2位置的数据,到底访问的哪一个呢?我们将这种现象称为哈希冲突。
不同关键字通过相同哈希哈数计算出相同的哈希地址,该种现象称为哈希冲突或哈希碰撞。把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。
四、哈希函数
引起哈希冲突的一个原因可能是:哈希函数设计不够合理。
常见的哈希函数
1、直接定址法
取关键字的某个线性函数为散列地址:Hash(Key)= A*Key + B。
优点:简单、均匀。
缺点:需要事先知道关键字的分布情况。
使用场景:适合查找比较小且连续的情况。
2、除留余数法
设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,按照哈希函数:Hash(key) = key% p (p<=m),将关键码转换成哈希地址。
五、哈希冲突的解决
1、闭散列
闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把key存放到冲突位置中的“下一个” 空位置中去。
那么这个下一个位置怎么确定呢?我们有两种方法来帮助我们寻找“下一个”位置。
~ 线性探测
比如三中的情况,插入2之后,现在需要插入元素32,先通过哈希函数计算哈希地址为2,因此32理论上应该插在该位置,但是该位置已经放了值为2的元素,即发生哈希冲突。这时我们就需要去寻找该位置后面的空位置了。
线性探测:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。
如下图,32只能插入在3的位置了。

注:采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素
会影响其他元素的搜索。比如删除元素2,如果直接删除掉,32查找起来可能会受影响。因此线性探测采用标记的伪删除法来删除一个元素。
在有限的空间内,随着我们插入的数据越来越多,冲突的概率也越来越大,查找效率越来越低,所以闭散列的冲突表不可能让它满了,所以我们就引入了负载因子:
负载因子(载荷因子):等于表中的有效数据个数/表的大小,衡量表的满程度,在闭散列中负载因子不可能超过1(1代表满了)。一般情况下,负载因子一般在0.7左右。负载因子越小,冲突概率也越小,但是消耗的空间越大,负载因子越大,冲突概率越大,空间的利用率越高。
template<class K>
struct HashFunc
{size_t operator()(const K& key){return (size_t)key;}
};//特化
template<>
struct HashFunc<string>
{size_t operator()(const string& key){size_t val = 0;for (auto ch : key){val *= 131;val += ch;}return val;}
};namespace closehash
{
enum State
{EMPTY,DELETE,EXIST
};template<class K,class V>
struct HashData
{pair<K, V> _kv;State _state = EMPTY;
};template<class K, class V, class Hash = HashFunc<K>>
class HashTable
{
public:bool insert(const pair<K, V>& kv){if (Find(kv.first)){return false;}if (_tables.size() == 0 || 10 * _size / _tables.size() >= 7){size_t newsize = _tables.size() == 0 ? 10 : _tables.size() * 2;HashTable<K, V, Hash> newHT;newHT._tables.resize(newsize);for (auto& e : _tables){if (e._state == EXIST){newHT.insert(e._kv);}}_tables.swap(newHT._tables);}Hash hash;size_t index = hash(kv.first) % _tables.size();//如果kv.first是string类型,那么就无法取模,因此我们要使用仿函数将其转换成整型//线性探测while (_tables[index]._state == EXIST){index++;index %= _tables.size();}_tables[index]._kv = kv;_tables[index]._state = EXIST;_size++;return true;}HashData<K, V>* Find(const K& key){if (_tables.size() == 0){return nullptr;}Hash hash;size_t hashi = hash(key) % _tables.size();size_t start = hashi;while (_tables[hashi]._state != EMPTY){if (_tables[hashi]._state != DELETE && _tables[hashi]._kv.first == key){return &_tables[hashi];}hashi++;hashi %= _tables.size();if (hashi == start){break;}}return nullptr;}bool Erase(const K& key){HashData<K, V>* ret = Find(key);if (ret){ret->_state = DELETE;_size--;return true;}elsereturn false;}private:vector<HashData<K, V>> _tables;size_t _size = 0; //存储了多少个有效数据};
2、开散列
概念:开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。

从上图可以看出,开散列中每个桶中放的都是发生哈希冲突的元素。
那么是不是我们只需要开固定的空间,然后其他的数据就一直连接到对应的桶的后面,那样桶是不是太长了呢?
桶的个数是一定的,随着元素的不断插入,每个桶中元素的个数不断增多,极端情况下,可能会导致一个桶中链表节点非常多,会影响的哈希表的性能,因此在一定条件下需要对哈希表进行增容。
增容条件:每个哈希桶中刚好挂一个节点,再继续插入元素时,每一次都会发生哈希冲突,因此,在元素个数刚好等于桶的个数时,可以给哈希表增容。
template<class K,class V>struct HashNode{pair<K, V> _kv;HashNode<K, V>* _next;HashNode(const pair<K, V>& kv):_kv(kv), _next(nullptr){}};template<class K, class V, class Hash = HashFunc<K>>class HashTable{typedef HashNode<K, V> Node;public:~HashTable(){for (size_t i = 0; i < _tables.size(); i++){Node* cur = _tables[i];while (cur){Node* next = cur->_next;free(cur);cur = next;}_tables[i] = nullptr;}}bool insert(const pair<K, V>& kv){//去重if (Find(kv.first)){return false;}Hash hash;//扩容if (_size == _tables.size()){size_t newsize = _tables.size() == 0 ? 10 : _tables.size() * 10;vector<Node*> newTables;newTables.resize(newsize, nullptr);//将旧表中结点移动映射到新表for (size_t i = 0; i < _tables.size(); i++){Node* cur = _tables[i];while (cur){Node* next = cur->_next;size_t hashi = hash(cur->_kv.first) % newTables.size();cur->_next = newTables[hashi];newTables[hashi] = cur;cur = next;}_tables[i] = nullptr;}_tables.swap(newTables);}size_t hashi = hash(kv.first) % _tables.size();Node* newnode = new Node(kv);newnode->_next = _tables[hashi];_tables[hashi] = newnode;_size++;return true;}Node* Find(const K& key){if (_tables.size() == 0)return nullptr;Hash hash;size_t hashi = hash(key) % _tables.size();Node* cur = _tables[hashi];while (cur){if (cur->_kv.first == key)return cur;elsecur = cur->_next;}return nullptr;}bool erase(const K& key){if (_tables.size() == 0){return nullptr;}Hash hash;size_t hashi = hash(key) % _tables.size();Node* cur = _tables[hashi];Node* prev = nullptr;while (cur){if (cur->_kv.first == key){// 1、头删// 2、中间删if (prev == nullptr){_tables[hashi] = cur->_next;}else{prev->_next = cur->_next;}delete cur;_size--;return true;}prev = cur;cur = cur->_next;}return false;}private:vector<Node*> _tables;size_t _size = 0;};
相关文章:
哈希及哈希表的实现
目录 一、哈希的引入 二、概念 三、哈希冲突 四、哈希函数 常见的哈希函数 1、直接定址法 2、除留余数法 五、哈希冲突的解决 1、闭散列 2、开散列 一、哈希的引入 顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在查找…...
CLIP 基础模型:从自然语言监督中学习可转移的视觉模型
一、说明 在本文中,我们将介绍CLIP背后的论文(Contrastive Language-I mage Pre-Training)。我们将提取关键概念并分解它们以使其易于理解。此外,还对图像和数据图表进行了注释以澄清疑问。 图片来源: 论文:…...
解读性能指标TP50、TP90、TP99、TP999
TP指标说明 TP指标: 指在一个时间段内,统计该方法每次调用所消耗的时间,并将这些时间按从小到大的顺序进行排序, 并取出结果为:总次数*指标数对应TP指标的值,再取出排序好的时间。 TPTop Percentile,Top百分数&#…...
【无标题】mysql 截取两个,之间字符串
截取两个,之间字符串 select area,SUBSTRING_INDEX(et.area,,,1) as XZQH1,if(length(et.area)-length(replace(et.area,,,))>1,SUBSTRING_INDEX(SUBSTRING_INDEX(et.area,,,2),,,-1),NULL) AS XZQH2,if(length(et.area)-length(replace(et.area,,,))>2,SUBS…...
全局的键盘监听事件
一、设定全局键盘监听事件 放在vue 的created()或者mounted ()中,可对整个文档进行键盘事件监听。 new Vue({ created() { window.addEventListener(keydown, this.handleKeydown); }, beforeDestroy() { window.removeEventListener(keydown, this.handleK…...
Qt自定义QSlider(支持水平垂直)
实现背景: Qt本身有自己的QSlider,为什么我们还要自定义实现呢,因为Qt自带的QSlider存在一个问题,当首尾为圆角时,滑动滚动条到首尾时会出现圆角变成矩形的问题。当然如果QSS之间的margin和滑动条的圆角控制的好的话是…...
会话控制学习
文章目录 介绍cookieexpress中使用cookie获取cookie session配置区别 介绍 cookie express中使用cookie 退出登录就是删除cookie 获取cookie 添加中间键后,直接获取 session 配置 区别...
dweb-browser阅读
dweb-browser阅读 核心模块js.browser.dwebjmm.browser.dwebmwebview.browser.dwebnativeui.browser.dweb.sys.dweb plaoc插件 核心模块 js.browser.dweb 它是一个 javascript-runtime,使用的是 WebWorker 作为底层实现。它可以让您在 dweb-browser 中运行 javasc…...
ChatGPT:使用fastjson读取JSON数据问题——如何使用com.alibaba.fastjson库读取JSON数据的特定字段
ChatGPT:使用fastjson读取JSON数据问题——如何使用com.alibaba.fastjson库读取JSON数据的特定字段 有一段Json字符串: {"code": 200,"message": "success","data": {"total": "1","l…...
2、ARM处理器概论
一、ARM处理器概述 1、ARM的含义 ARM(Advanced RISC Machines)有三种含义,一个公司的名称、一类处理器的通称、一种技术 ARM公司: 成立于1990年11月,前身为Acorn计算机公司主要设计ARM系列RISC处理器内核授权ARM内…...
【Python】福利彩票复式模拟选号程序
【效果】 【注意】 逻辑是用Random模拟10000次复试彩票选号,然后给出最大可能性一组。但是模拟终究是模拟,和现实彩票结果没有任何联系,下载下来玩就是了,没人能保证模拟出中奖号码,不要投机,不要投机! 【修改】 代码很简单,如果想改成不是复式的,自行修改即可。 如…...
Pytorch 机器学习专业基础知识+神经网络搭建相关知识
文章目录 一、三种学习方式二、机器学习的一些专业术语三、模型相关知识四、常用的保留策略五、数据处理六、解决过拟合与欠拟合七、成功的衡量标准 一、三种学习方式 有监督学习: 1、分类问题 2、回归问题 3、图像分割 4、语音识别 5、语言翻译 无监督学习 1、聚类…...
torch 和paddle 的GPU版本可以放在同一个conda环境下吗
新建conda 虚拟环境,python 版本3.8.17 虚拟机,系统centos 7,内核版本Linux fastknow 3.10.0-1160.92.1.el7.x86_64 ,显卡T4,nvidia-smi ,460.32.03,对应cuda 11.2,安装cuda 11.2和cudnn,conda…...
MYBATIS-PLUS入门使用、踩坑记录
转载: mybatis-plus入门使用、踩坑记录 - 灰信网(软件开发博客聚合) 首先引入MYBATIS-PLUS依赖: SPRING BOOT项目: <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus…...
C# 静态类和sealed类(密封类)的区别
网上看到很多文章写静态类,和密封类,但是鲜有它们的对比总结,在此简单总结一下: 静态类(Static Class): 静态类不能被实例化,其成员都是静态的,可以通过类名直接访问。静…...
el-table如何实现自动缩放,提示隐藏内容
前提问题:大屏展示中某一个区域是表格内容,当放大或缩小网页大小时,表格宽度随之缩放,但表格内容未进行缩放,需要表格内容与网页大小同时进行缩放,且表头和表格内容宽度不够未显示全时,需要进行…...
CRM客户管理软件对出海企业的帮助与好处
2023我们走出了疫情的阴霾,经济下行压力大,面对内需的不足,国内企业纷纷选择出海,拓展海外业务增加企业营收。企业出海不是一件易事,有了CRM系统可以让公司事半功倍,下面就来说一说CRM客户管理软件能为出海…...
【QT--使用百度地图API显示地图并绘制路线】
QT--使用百度地图API显示地图并绘制路线 前言准备工作申请百度地图密钥(AK)安装开发环境 开发过程新建项目ui界面GPSManager类主窗口Map 效果展示 前言 先吐槽一下下,本身qt学的就不咋滴,谁想到第一件事就是让写一个上位机工具,根据CAN总线传…...
C数据结构二.练习题
一.求级数和 2.求最大子序列问题:设给定一个整数序列 ai.az..,a,(可能有负数).设计一个穷举算法,求a 的最大值。例如,对于序列 A {1,-1,1,-1,-1,1,1,1,1.1,-1,-1.1,-1,1,-1},子序列 A[5..9](1,1,1,1,1)具有最大值5 3.设有两个正整数 m 和n,编写一个算法 gcd(m,n),求它们的最大公…...
猫头虎博主第5️⃣期赠书活动:《Java官方编程手册(第12版·Java 17)套装上下册》
🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…...
未来展望:2.5D转真人技术还能如何进化?听听开发者的思考
未来展望:2.5D转真人技术还能如何进化?听听开发者的思考 1. 从工具到平台:当前技术的边界与瓶颈 如果你已经体验过类似Anything to RealCharacters这样的2.5D转真人引擎,你可能会惊叹于它能把一张动漫头像变成栩栩如生的真人照片…...
5种主流邮箱取证全攻略:从Gmail到iCloud的完整导出指南(附龙信天眼解析技巧)
5种主流邮箱取证全攻略:从Gmail到iCloud的完整导出指南 在数字时代,电子邮件已成为法律诉讼和企业调查中不可或缺的电子证据。无论是处理合同纠纷、知识产权争议还是内部合规调查,专业、规范的邮件取证流程往往决定着案件的走向。然而&#x…...
SAM3部署实战:在CUDA 11.8环境下绕过官方配置限制的完整指南
1. 环境准备与CUDA 11.8兼容性分析 最近在部署SAM3模型时遇到了一个棘手问题:官方文档明确要求CUDA版本≥12.6,但手头只有配备CUDA 11.8的3090服务器。经过三天折腾终于成功跑通,这里分享完整解决方案。首先要理解的是,CUDA版本限…...
Go 结构体设计艺术:领域驱动建模与高内聚代码的映射实践
Go 结构体设计艺术:领域驱动建模与高内聚代码的映射实践 导读:结构体是 Go 语言数据建模的核心载体。如何从复杂的业务领域中抽象出清晰的结构体设计?本文基于领域驱动设计(DDD)思想,结合电商、支付、用户系统等真实场景,系统讲解 Go 结构体设计的核心原则、常见模式与反…...
2024 AI-Playground:本地部署Intel Arc GPU加速的AI创作平台全指南
2024 AI-Playground:本地部署Intel Arc GPU加速的AI创作平台全指南 【免费下载链接】AI-Playground AI PC starter app for doing AI image creation, image stylizing, and chatbot on a PC powered by an Intel Arc™ GPU. 项目地址: https://gitcode.com/gh_mi…...
告别SQL与文档!通义灵码2.5的MCP生态如何让数据库开发效率飙升300%
1. 从SQL苦手到数据库自由:通义灵码2.5的MCP革命 记得三年前我刚接手一个电商项目时,为了写一个包含五表联查的订单统计SQL,整整折腾了一下午——反复查阅MySQL文档、调试JOIN语句、优化索引,最后还因为漏了个外键约束导致生产环境…...
**发散创新:基于稀疏模型的高效特征选择与代码实现详解**在现代机器学习和深度学习任务中,**稀疏模型**(Sparse M
发散创新:基于稀疏模型的高效特征选择与代码实现详解 在现代机器学习和深度学习任务中,稀疏模型(Sparse Model)已成为提升效率、降低资源消耗的重要手段。尤其在处理高维数据(如文本、图像、推荐系统)时&am…...
技术迭代下B端拓客号码核验:困境解析与行业发展路径氪迹科技法人/股东/核验系统
B端客户拓展的精细化发展,使得企业核心决策人(法人、股东、董监高)号码的核验与筛选,成为影响拓客效能、控制运营成本的关键环节。当前,市场竞争日趋激烈,B端拓客已彻底告别“粗放式引流”模式,…...
optimize-js实战教程:如何在Webpack和Browserify中集成使用
optimize-js实战教程:如何在Webpack和Browserify中集成使用 【免费下载链接】optimize-js Optimize a JS file for faster parsing (UNMAINTAINED) 项目地址: https://gitcode.com/gh_mirrors/op/optimize-js optimize-js是一个强大的JavaScript优化工具&…...
JavaScript并发模型详解:javascript-guidebook教你玩转事件循环与定时器
JavaScript并发模型详解:javascript-guidebook教你玩转事件循环与定时器 【免费下载链接】javascript-guidebook :books:JavaScript 前端知识图谱 A guidebook for the convenience of the front-end developers 项目地址: https://gitcode.com/gh_mirrors/ja/jav…...
