当前位置: 首页 > news >正文

算法通关村-----海量数据的处理方法

从40亿中产生一个不存在的数

问题描述

给定一个文件,包含40亿个非负整数,请你设计一个算法,产生一个不在该文件中的数字。假设你只有1GB内存。

问题分析

40亿整数,在java中,用int存储的话,大概需要40亿✖️4B,大约16G。现在只有1GB,很明显是不够的,可以考虑位存储,可以减少到原空间的1/32,大约0.5G,满足题目给定的内存要求

实现思路

使用位存储,使用整数对应位置的bit位为1,代表元素存在,为0,代表元素不存在。遍历这40亿个数,将存在的数对应的bit设置为1。对bit数组再次进行遍历,返回为0的第一个下标的对应数字即是40亿中不存在的数。

问题进阶

给定一个文件,包含40亿个非负整数,请你设计一个算法,产生一个不在该文件中的数字。假设你只有10MB内存。

问题分析

只有10MB来存储,很明显使用位存储是不够的。位存储需要0.5GB=500MB的空间。我们可以采用分块思想。一共需要500MB空间,我们只有10MB空间,可以分成50个块,一般向上取整至2的整数次幂,即64个块,40亿大概是4G,即4*2^ 30,总共2的32次方个数,分成64个块,每块2^32/64 = 2 ^26个数,我们可以通过两次遍历来找到不存在的数。

实现思路

首先,我们申请一个长度为64的整形数组,用于统计64个块中元素的个数。遍历这40亿个数,,判断其属于哪个块,可以通过数值大小%64来实现,统计结束后,找到一个数组元素小于2 ^26的对应块。在申请存储一个块元素所需要的bit空间,即2 ^ 26*4B/32 = 2 ^23B =8MB,小于10MB可以实现,遍历40亿个数,将属于该块的元素对应的bit为设置为1。对bit数组再次进行遍历,返回为0的第一个下标的对应数字即是40亿中不存在的数。

20亿个整数中找到出现次数最多的数

问题描述

在20亿个整数中找到出现次数最多的数,假设你只有2GB内存。

问题分析

20亿整数大概是2G=22^30 = 2 ^31,int类型可以存储,不会溢出。可以使map计数,键表示数字,值表示数字出现的次数,这样一个键值对需要8B的存储空间。20亿个数字需要大概2G8B=16GB。只有2GB的情况下,可以进行分块,分为8个块,依次进行处理。

实现思路

将20亿个数字映射为8个块,可以使用哈希函数(模8)来实现。统计每个块中元素的数量,找出最大值,比较八个块的最大值,找到20亿个数中的最大值返回。

总结

海量数据的处理方法通常只有三种,首先是特殊情况,让我们寻找海量数据中的最值,或者前几个最值,可以使用堆来实现,之后可以考虑bit位存储,整数存储对应下标,可以节省到1/32的存储空间,如果内存依旧不够,可以考虑分块,具体的分多少块,可以取需要内存和现有内存的比值,分块可以采用顺序分块,也可以采用哈希分块。

相关文章:

算法通关村-----海量数据的处理方法

从40亿中产生一个不存在的数 问题描述 给定一个文件,包含40亿个非负整数,请你设计一个算法,产生一个不在该文件中的数字。假设你只有1GB内存。 问题分析 40亿整数,在java中,用int存储的话,大概需要40亿✖️4B,大约…...

Pytorch 多卡并行(1)—— 原理简介和 DDP 并行实践

近年来,深度学习模型的规模越来越大,需要处理的数据也越来越多,单卡训练的显存空间和计算效率都越来越难以满足需求。因此,多卡并行训练成为了一个必要的解决方案本文主要介绍使用 Pytorch 的 DistributedDataParallel&#xff08…...

快速排序(重点)

前言 快排是一种比较重要的排序算法,他的思想有时候会作用到个别算法提上,公司招聘的笔试上有时候也有他的过程推导题,所以搞懂快排势在必行!!! 快速排序 基本思想: 根据基准,将数…...

python高级内置函数介绍及应用举例

目录 1. 概述2. 举例 1. 概述 Python中有许多高级内置函数,它们提供了丰富的功能和便利性,可以大大简化代码并提高效率。以下是一些常用的高级内置函数: map(): 用于将一个函数应用于一个可迭代对象的所有项,返回一…...

人体呼吸存在传感器成品,毫米波雷达探测感知技术,引领智能家居新潮流

随着科技的不断进步和人们生活质量的提高,智能化家居逐渐成为一种时尚和生活方式。 人体存在传感器作为智能家居中的重要组成部分,能够实时监测环境中人体是否存在,为智能家居系统提供更加精准的控制和联动。 在这个充满创新的时代&#xf…...

软件设计模式(三):责任链模式

前言 前面荔枝梳理了有关单例模式、策略模式的相关知识,这篇文章荔枝将沿用之前的写法根据示例demo来体会这种责任链设计模式,希望对有需要的小伙伴有帮助吧哈哈哈哈哈哈~~~ 文章目录 前言 责任链模式 1 简单场景 2 责任链模式理解 3 Java下servl…...

开发者的商业智慧:产品立项策划你知道多少?

文章目录 想法的萌芽🌟初步评估产品可行性🍊分析核心功能和特点以及竞争对手📝大健康监测📝时尚新科技产品📝准确性📝多功能📝品牌口碑📝数据分析与个性化建议📝社交互动…...

Linux 6.6 初步支持AMD 新一代 Zen 5 处理器

AMD 下一代 Zen 5 CPU 现已开始为 Linux 6.6 支持提交相关代码,最新补丁包括提供温度监控和 EDAC 报告等。 最新的 Linux 6.6 代码中已经加入了包括支持硬件监视器温度监控和 EDAC 报告的补丁。此外,新版本还加入了 x86 / misc 补丁,Phoronix…...

第五章 Linux常用应用软件

第五章 Linux常用应用软件 ​ Ubuntu包含了日常所需的常用程序,集成了跨平台的办公套件LibreOffice和Mozila Firefox浏览器等。还提供了文本处理工具、图片处理工具等。 1.LibreOffice ​ LibreOffice免费开源,遵照GPL分发源代码,与OpenOf…...

连接云-边-端,构建火山引擎边缘云网技术体系

近日,火山引擎边缘云网络产品研发负责人韩伟在LiveVideoStack Con 2023上海站围绕边缘云海量分布式节点和上百T的网络规模,结合边缘云快速发展期间遇到的各种问题和挑战,分享了火山引擎边缘云网的全球基础设施,融合开放的云网技术…...

系统架构设计师(第二版)学习笔记----系统架构设计师概述

【原文链接】系统架构设计师(第二版)学习笔记----系统架构设计师概述 文章目录 一、架构设计师的定义、职责和任务1.1 架构设计师的定义1.2 架构设计师的任务 二、架构设计师应具备的专业素质2.1 架构设计师应具备的专业知识2.2 架构设计师的知识结构2.3…...

自动化测试:Selenium中的时间等待

在 Selenium 中,时间等待指在测试用例中等待某个操作完成或某个事件发生的时间。Selenium 中提供了多种方式来进行时间等待,包括使用 ExpectedConditions 中的 presence_of_element_located 和 visibility_of_element_located 方法等待元素可见或不可见&…...

vim 替换命令 “:s“

vim 替换命令 ":s" 1. 替换光标所在行的第一个匹配串2. 替换光标所在行全部匹配项3. 替换两行之间每行的第一个匹配项4. 替换两行之间的全部匹配项5. 替换整个文件中的每个匹配串6. 查找整个文件中的每个匹配串并询问是否替换 1. 替换光标所在行的第一个匹配串 命令…...

【golang】调度系列之m

调度系列 调度系列之goroutine 上一篇中介绍了goroutine,最本质的一句话就是goroutine是用户态的任务。我们通常说的goroutine运行其实严格来说并不准确,因为任务只能被执行。那么goroutine是被谁执行呢?是被m执行。 在GMP的架构中&#xff…...

可持久化线段树

可持久化线段树 模板 在某一指定版本的单点查,单点修。 开 m m m 棵线段树,每次修改复制后单点修。时间复杂度 O ( m ( n log ⁡ n ) ) O(m(n\log n)) O(m(nlogn)),空间复杂度 O ( n m ) O(nm) O(nm),不如暴力。 每次修改…...

运行 Node.js 与浏览器 JavaScript

浏览器和 Node.js 都使用 JavaScript 软件语言 - 但字面上的运行时环境是不同的。 Node.js(又名服务器端 JavaScript)与客户端 JavaScript 有许多相似之处。它也有很多差异。 尽管两者都使用 JavaScript 作为软件语言,但我们可以重点关注一些关键差异,这些差异使两者之间…...

File类操作

1. 练习一 在当前模块下的 text 文件夹中创建一个 io.txt 文件 import java.io.File; import java.io.IOException;public class Practice1 {public static void main(String[] args) {File file new File("D:\\kaifamiao");File file1 new File(file, "tex…...

C# 实现电子签名

本项目基于Emgu.CV(C#下OpenCv的封装)开发的,编译器最新版Vs2022,编译环境x86 直接看效果图 1.主页面 2.我们先看手写的方式: 点击确认就到主界面,如下 : 点击自动适配-,再点击生成…...

小米6/6X/米8/米9手机刷入鸿蒙HarmonyOS.4.0系统-刷机包下载-遥遥领先

小米手机除了解锁root权限,刷GSI和第三方ROM也是米粉的一大爱好,这不,在华为发布了HarmonyOS.4.0系统后不久,我们小米用户也成功将自己的手机干山了HarmonyOS.4.0系统。虽然干上去HarmonyOS.4.0系统目前BUG非常多,根本…...

集合框架和泛型二

一、Set接口 1. Set接口概述 java.util.Set 不包含重复元素的集合、不能保证存储的顺序、只允许有一个 null。 public interface Set<E> extends Collection<E>抽象方法&#xff0c;都是继承自 java.util.Collection 接口。 Set 集合的实现类有很多&#xff0c;…...

OFA图像描述模型惊艳案例:复杂场景与抽象艺术的理解与描述

OFA图像描述模型惊艳案例&#xff1a;复杂场景与抽象艺术的理解与描述 你有没有想过&#xff0c;让AI看一幅画&#xff0c;然后让它像一位艺术评论家那样&#xff0c;为你娓娓道来画中的故事与意境&#xff1f;这听起来像是科幻电影里的场景&#xff0c;但今天&#xff0c;OFA…...

Windows/Mac双平台实测:SSH密钥配置避坑指南(含GitHub443端口解决方案)

Windows/Mac双平台SSH密钥配置全攻略&#xff1a;从生成到故障排除 SSH密钥认证是开发者与GitHub、GitLab等代码托管平台交互的安全基石。不同于密码认证的繁琐与安全隐患&#xff0c;密钥认证提供了更高效、更安全的身份验证方式。本文将深入探讨Windows和Mac双平台下的SSH密钥…...

解决AI绘画痛点:造相-Z-Image针对RTX 4090的BF16优化与防爆技巧

解决AI绘画痛点&#xff1a;造相-Z-Image针对RTX 4090的BF16优化与防爆技巧 1. RTX 4090上的AI绘画挑战与解决方案 1.1 高端显卡的隐藏痛点 RTX 4090作为消费级显卡的旗舰产品&#xff0c;拥有24GB显存和强大的计算能力&#xff0c;理论上应该能轻松应对各种AI绘画任务。但在…...

手机号逆向查询QQ号:终极完整指南,3分钟快速上手

手机号逆向查询QQ号&#xff1a;终极完整指南&#xff0c;3分钟快速上手 【免费下载链接】phone2qq 项目地址: https://gitcode.com/gh_mirrors/ph/phone2qq 你是否曾经因为忘记QQ号码而无法登录&#xff1f;或者需要验证手机号与QQ号的绑定关系&#xff1f;今天我要介…...

Linux进程等待机制:wait与waitpid系统调用详解

1. 进程等待机制&#xff1a;父进程对子进程生命周期的精确管控在 Linux 系统编程中&#xff0c;进程创建&#xff08;fork()&#xff09;与退出&#xff08;exit()&#xff09;仅构成生命周期管理的起点与终点。真正体现系统调度严谨性与资源回收可靠性的&#xff0c;是父进程…...

SEC-Edgar:金融数据工作者的自动化财报获取解决方案

SEC-Edgar&#xff1a;金融数据工作者的自动化财报获取解决方案 【免费下载链接】sec-edgar Download all companies periodic reports, filings and forms from EDGAR database. 项目地址: https://gitcode.com/gh_mirrors/se/sec-edgar 在金融市场分析中&#xff0c;…...

Qwen3-32B多场景应用:智能客服、内容创作、代码助手一键调用

Qwen3-32B多场景应用&#xff1a;智能客服、内容创作、代码助手一键调用 1. 引言&#xff1a;为什么选择Qwen3-32B&#xff1f; 如果你正在寻找一个既能理解复杂问题&#xff0c;又能生成专业内容&#xff0c;还能帮你写代码的AI助手&#xff0c;那么Qwen3-32B可能就是你要找…...

Stable-Diffusion-3.5-FP8入门指南:3步完成环境配置,轻松生成高清图片

Stable-Diffusion-3.5-FP8入门指南&#xff1a;3步完成环境配置&#xff0c;轻松生成高清图片 想体验最新最强的AI绘画模型&#xff0c;但又担心自己的电脑配置不够&#xff1f;Stable Diffusion 3.5&#xff08;SD 3.5&#xff09;的发布确实带来了令人惊艳的画质&#xff0c…...

Cosmos-Reason1-7B模型加速技术:使用.accelerate库优化推理

Cosmos-Reason1-7B模型加速技术&#xff1a;使用accelerate库优化推理 最近在部署一些大语言模型时&#xff0c;发现推理速度是个绕不开的坎。特别是像Cosmos-Reason1-7B这种拥有70亿参数的模型&#xff0c;如果只是用最基础的方式加载&#xff0c;生成一段稍长的文本可能要等…...

2026 年企业级低代码开发平台哪个更值得选?横向测评 9 款热门平台

企业数字化的节奏越来越快&#xff0c;低代码也从“做表单审批”走到了“承接企业级系统”的阶段&#xff1a;能不能跑通复杂流程、能不能接入一堆老系统、能不能在多端交付、能不能把能力沉淀下来复用……这些才是企业在选型时真正会反复追问的点。 这篇文章我按企业级项目里…...