当前位置: 首页 > news >正文

生物信息场景下的用户需求

  1. 背景分析

  1. 概念定义

基因测序是一种新型基因检测技术,是基因检测的方法之一,其又叫基因谱测序,是国际上公认的一种基因检测标准。基因测序技术能锁定病变基因,提前预防和治疗。过长的测序周期以及上万美元的仪器成本,成了阻碍基因测序进入寻常百姓家的障碍。而运用新技术的基因测序仪,大大降低了基因组测序的门槛,使得更多研究人员能够使用这项技术开发多种应用。常用的测序平台有Complete Genomics,Illumina HiSeq,ABI SOLiD System,Roche GS FLX Platform,Ion Torrent及Ion Proton等。

  1. 政策纲要

十四五”开局之年,我国发布《中华人民共和国国民经济和社会发展第十四个五 年规划和2035年远景目标纲要》,提出未来我国要大力发展战略新兴产业,利用新一代信息技术,壮大航空航天、海洋装备、新能 源汽车、新能源、生物技术、绿色环保、新材料等产业。“生物医药作为我国十四五规划中战略性新兴产业的主攻方向,更是成为推进健康中国建设的重要支撑点。”5月10日,国家发展改革委印发《“十四五”生物经济发展规划》(以下简称《规划》),明确提出了生物经济发展阶段目标。与此同时,全国多个城市发布相关政策以促进我国生物医药行业发展。

2.生信项目方案

FASS+ NVMe SSD构建分布式全闪存储集群,并将LUN分配给不同的网关节点;

xFile构建高可用网关集群,为业务提供高性能文件存储服务。支持N-1节点故障,NAS共享服务正常;XDFS作为存储底座+SATA硬盘,构建大容量归档近线存储系统磁带库作为离线存储系统。对在一定时间内没有访问的数据进行归档迁移操作,将这些数据按策略归档到磁带库中保证业务数据正常访问的情况下,充分节约在线和近线存储空间。

2.1现状分析

(一)用户分析:

1.元数据保存方式:

·目前用户95%以上元数据由不同机构通过网络上传至华为云上;

·华为云为上传数据提供对象存储服务(OBS),及所有文件均以对象方式保存。

2.数据分析:

·用户通过手动方式将华为云OBS上数据迁移至华为云文件存储上;

· 通过用户专业数据分析系统对迁移至华为云文件存储上的数据进行分析、处理,生成相应报告。

3.数据输出:

·在整个分析过程中会生成结果文件和过程文件;

·结果文件会通过手动方式迁移回OBS上,过程文件保存在华为云文件存储上。

4.数据容量:

·用户每天产生超过1TB的数据,加上过程数据等中间数据,全年数据量可达3-5PB。

(二)存在问题:

1.用户在生产过程中产生大量数据,需要从华为云上获取大量的存储资源,因此每年需要投入较高的费用租用华为云服务。

2.数据流转过程需要通过手动方式进行,效率较低,并且容易造成人为失误。

3.基因测序分析对存储性能要求很高,云上进行无法满足日益增长的分析需求。

2.2整体解决方案

·根据用户需求将华为云OBS上元数据下载至本地私有云存储系统上;

·根据基因测序业务需求和数据特性,TaoCloud以FASS全闪分布式存储为数据底座,结合高性能文件网关,组成一套高性能文件存储集群,为基因测序业务提供高可靠、高带宽、高IOPS、低延时的文件存储服务,本次建设提供200TB可用容量SSD存储池。

·同时配置XDFS分布式统一存储系统,配以SATA HDD构建800TB高性价比存储池,按策略进行数据归档,将过程数据按策略归档至HDD存储池中,实现数据全生命周期管理。

(一)数据下云、上传及归档详细描述:

1、数据下云:

下云数据主要针对用户所有在华为云OBS上保存的对象存储数据,通过在本地分布式全闪存储系统上设置相应策略,将这部分数据定时自动下载至本地私有云存储系统的全闪分布式存储系统上,并以文件形式保存,以便于进行相应的数据分析。

2、数据上传:

上传数据主要针对经过分析所产生的结果数据,同样需要在本地分布式全闪存储系统上设置相应策略,定时将这部分数据上传到华为云OBS上,用以最终用户获取分析结果。

3、数据归档:

元数据在分布式全闪存储系统上经过分析后不仅会产生结果数据,还会产生过程数据,这部分过程数据会被保存在相应的文件夹中通过归档模块根据相应策略迁移归档至分布式文件存储的HDD存储池中进行长期保存。

(二)系统性能:

方案采用分布式全闪+高性能文件网关方式构建业务存储系统(主存储),系统通过全SSD+100GbE网络为业务系统提供高性能存储服务,其性能分为分布式全闪底座块存储性能及文件存储性能,具体性能指标如下:

1、分布式全闪文件存储性能指标:

带宽:20GB/S

OPS:单客户端10000

10客户端100000

满足1000个以上容器通过CSI方式挂载

2、分布式全闪块存储性能指标:

带宽:48GB/S

IOPS:大于800万

延时:小于200微秒

2.3方案优势

(一)完善的计算处理能力

大道分布式存储系统具有非常好的硬件兼容性,在一个集群环境中可以同时部署各种服务器、同时支持ARM等国产CPU架构。用户通过部署高主频CPU、大内存计算节点等硬件资源,可以创建出满足用户各类科研应用的存储硬件资源池,并通过资源管理和调度软件实现资源的有效分配。

在药物研发、化学分子分析、基因测序及蛋白分析的应用软件中,经常需要Windows系统环境的支持。大道分布式存储系统支持Linux和Windows混合架构的HPC计算集群;支持(如Windows2008/2012/2016、Windows 10、Suse Linux、Redhat Linux、Centos Linux)多版本的操作系统。

(二)完整的数据管理功能

药物研发、化学分子分析、基因测序及蛋白分析过程中会产生非常庞大的数据。这些数据包含珍贵的一手测序数据,也包含测序分析过程中产生的过程文件。大道分布式存储系统支持用户的存储空间配额管理,从而为用户提供便捷的数据存储服务。

(三)数据协同共享

大道分布式存储系统还提供基于数据共享实现的数据协同功能,可以通过定义数据共享区,让用户将需要协同交换的数据放到数据共享区。为了保证数据协同的安全性,系统管理员还可以配置用户访问数据共享区的权限。

相关文章:

生物信息场景下的用户需求

背景分析概念定义基因测序是一种新型基因检测技术,是基因检测的方法之一,其又叫基因谱测序,是国际上公认的一种基因检测标准。基因测序技术能锁定病变基因,提前预防和治疗。过长的测序周期以及上万美元的仪器成本,成了…...

linux su(switch user)和sudo(superuser do)的区别?(sudo su与su的区别)

文章目录linux su(switch user)和sudo(superuser do)的区别?sudo su与su的区别linux su(switch user)和sudo(superuser do)的区别? 在Unix或Linux操作系统中…...

PostgreSQL的学习心得和知识总结(一百二十三)|深入理解PostgreSQL数据库开源扩展pg_dirtyread的使用场景和实现原理

目录结构 注:提前言明 本文借鉴了以下博主、书籍或网站的内容,其列表如下: 1、参考书籍:《PostgreSQL数据库内核分析》 2、参考书籍:《数据库事务处理的艺术:事务管理与并发控制》 3、PostgreSQL数据库仓库…...

ubuntu清理挖矿病毒

0 序言 我之前搭建的hadoop用于测试,直接使用了8088和9870端口,没有放入docker,从而没有端口映射。于是,就被不法之徒盯上了,hadoop被提交了很多job,使得系统被感染了挖矿病毒,在前几天阿里云站…...

【代码随想录训练营】【Day16】第六章|二叉树|104.二叉树的最大深度|559.n叉树的最大深度|111.二叉树的最小深度|222.完全二叉树的节点个数

二叉树的最大深度 题目详细:LeetCode.104 递归法很容易理解: 定义一个全局变量max, 记录二叉树的最大深度在递归函数中增加一个深度参数,表示当前的节点的深度然后对二叉树进行深度优先遍历当遍历到叶子节点时,比较…...

transformer总结

1.注意力机制 意义:人类的注意力机制极大提高了信息处理的效率和准确性。 公式: 1)自注意力机制 b都是在考虑了所有a的情况下生成的。 以产生b1向量为例: 1.在a这个序列中,找到与a1相关的其他向量 2.每个向量与a1关联的程度&a…...

dart flutter入门教程,开发手册 分享

我最近在学校dart flutter.这是我收集的一些手册和教程. 不需要关注公众号,不需要加好友. 我发现flutter(dart)的中文资料比较奇缺.入门的教程非常多.但是api手册几乎没有(全是英文的). 收集原则 1.中文(我英文不好) 2.不要pdf的,网上有一些pdf的 从入门到进阶的,但是太长…...

教育舆情监测关键词有哪些,TOOM教育舆情监测系统流程?

教育舆情监测是指对教育领域的舆情进行收集、分析和处理的过程。舆情是指公众在各种渠道上对教育政策、教育机构、教育事件等方面的言论、态度和情绪。通过对教育舆情的监测和分析,可以了解公众对教育行业的看法和反应,提高对教育行业的管控能力&#xf…...

MySQL高级(一)

MySQL-day01 1 MySQL简介 1.1 MySQL简介 MySQL是一个关系型数据库管理系统,由瑞典MySQL AB(创始人Michael Widenius)公司开发,2008被Sun收购(10亿美金),2009年Sun被Oracle收购。MariaDBMaria…...

如何将Python项目部署到新电脑上运行?

如何将Python项目部署到新电脑上运行? 在工作中,可能需要在新服务器上部署项目代码,例如新增服务器、把测试环境的代码部署到生产环境等。 在生活中,也会遇到换新电脑,需要将自己在旧电脑上写的(项目&…...

JVM和JAVA体系结构

1、为什么要学习JVM作为Java工程师的你曾被伤害过吗?你是否也遇到过这些问题?运行着的线上系统突然卡死,系统无法访问,甚至直接OOM想解决线上JVM GC问题,但却无从下手新项目上线,对各种JVM参数设置一脸茫然…...

(十)、通过云对象修改阅读量+点赞功能的实现【uniapp+uinicloud多用户社区博客实战项目(完整开发文档-从零到完整项目)】

1,通过云对象importObj修改阅读量 1.1 新建云对象 1.2 云对象中写自增自减方法 封装云对象utilsObj中的自增自减方法,方法名取为operation,传递4个参数。 // 云对象教程: https://uniapp.dcloud.net.cn/uniCloud/cloud-obj // jsdoc语法提…...

刷力扣的第一天脑子要长出来的感觉(怎么有人大四才开始啊啊啊啊啊啊啊啊啊啊啊啊,又是等成绩的一天,)

刷力扣的第一天脑子要长出来的感觉(为什么大四才开始啊啊啊啊啊啊啊啊啊啊啊啊) emmm,自己还是想不太出来(只是一点想法),可能还是会参考评论区,求各位轻喷 分析:带符号一定不是回…...

Nuclei文*件上*传FUZZ POC

目录 1.前言 2. Nuclei文件上传FUZZ POC 3. 实战中的应用 1.前言 该文件上传FUZZ POC主要来源于一个靶*场,该POC 主要用来FUZZ目标js页面中的upload ajax请求,以此来进一步尝试文件上传漏*洞利*用。 这里也要感谢下“打工仔1号”提供的开*发人员常见的文*件上*传javaScr…...

完美解决方案-雪花算法ID到前端之后精度丢失问题

最近公司的一个项目组要把以前的单体应用进行为服务拆分,表的ID主键使用Mybatis plus默认 的雪花算法来生成。 快下班的时候,小伙伴跑过来找我,:“快给我看看这问题,卡这卡了小半天了!”。连拉带拽&#x…...

工程管理系统源码之高效的工程项目管理软件

高效的工程项目管理软件不仅能够提高效率还应可以帮你节省成本提升利润 在工程行业中,管理不畅以及不良的项目执行,往往会导致项目延期、成本上升、回款拖后,最终导致项目整体盈利下降。企企管理云业财一体化的项目管理系统,确保…...

390. 消除游戏

列表 arr 由在范围 [1, n] 中的所有整数组成,并按严格递增排序。请你对 arr 应用下述算法:从左到右,删除第一个数字,然后每隔一个数字删除一个,直到到达列表末尾。重复上面的步骤,但这次是从右到左。也就是…...

springBoot JPA代码生成器

介绍通过IDEA配置文件,根据数据库表结构快速生产Service、ServiceImpl、repository、repositoryImpl、自动生成常用的jpa增删改查等方法。使用的版本Spring Boot2.1.6.RELEASE spring-boot-starter-data-jpa使用idea 生成代码步骤打开idea(https://images.gitee.co…...

相同月利率条件下不同还款方式贷款的APR与IRR研究

文章目录前提假设一次性还本付息先息后本等额本息等额本金简单二分法求解IRR的程序汇总实验对比前提假设 因为常见的信贷产品还款期数定义都是按照月,假设只借一期的利率(月利率)为r,在此条件下,研究不同还款方式下的…...

【论文】智能隧道检测车的现状及改进策略

本文转载自《智慧城轨》2022年第11期 作者:黄丹樱1,韦强1,朱椰毅2,范骁1,林浩立1 单位:1 浙江师范大学工学院;2 浙江金温铁道开发有限公司 声明:本文仅用于学术分享,不做商业用途,如有侵权,联…...

【代码随想录二刷】Day16-二叉树-C++

代码随想录二刷Day16 每日任务 104.二叉树的最大深度 559.n叉树的最大深度 111.二叉树的最小深度 222.完全二叉树的节点个数 语言:C 104. 二叉树的最大深度 链接:https://leetcode.cn/problems/maximum-depth-of-binary-tree/ 递归法(前序…...

Lecture5 实现线性回归(Linear Regression with PyTorch)

目录 1 Pytorch实现线性回归 1.1 实现思路 1.2 完整代码 2 各部分代码逐行详解 2.1 准备数据集 2.2 设计模型 2.2.1 代码 2.2.2 代码逐行详解 2.2.3 疑难点解答 2.3 构建损失函数和优化器 2.4 训练周期 2.5 测试结果 3 线性回归中常用优化器 1 Pytorch实现线性回归…...

Python与Matlab svd分解的差异

1.差异说明 Matlab和Python的NumPy库中的SVD函数(np.linalg.svd)都是用来对矩阵进行奇异值分解(SVD)的函数,但它们在默认参数和返回结果方面有一些差异。 在Matlab中,SVD函数的默认行为是计算矩阵的完整SVD,即对于一…...

2023年光模块行业发展趋势及未来前景

随着数字化时代的到来,互联网行业的快速发展,网络通信设备行业的发展也在逐渐加速。光模块作为网络设备的重要组成部分,也在不断创新和发展。那么,光模块行业的未来发展趋势又是怎样的呢?接下来就跟着易天光通信&#…...

Sysmac Studio使用Tortoise和Git实现版本控制

Sysmac Studio使用Tortoise和Git实现版本控制实验时间:2022/11/16 实验软件:Sysmac Studio(1.52,需要软件授权支持版本控制)、Git(2.38.1)、Tortoise(2.13.0)、gitee(代码仓库) 实验目的:Sysmac Studio实现版本控制、多人同时开…...

Intent 和 Bundle 传值的区别

文章目录1、使用上1.1 Intent 方式1.2 Bundle 方式2、为什么 Bundle 使用 ArrayMap 而不是 Hashmap 实现呢?1、使用上 1.1 Intent 方式 举例:将数据从页面 A 传递到 B,然后再传递到 CA 页面: Intent intentnew Intent(MainActi…...

TypeScript 初步

一、TypeScript是什么? Typed JavaScript at Any Scale: 添加了类型系统的JavaScript,使用于任何规模的项目。 两个重要特点: 类型系统 任何规模 中文官网:文档简介 TypeScript中文网 TypeScript——JavaScript的超集 TypeS…...

leaflet 添加zoomslider,控制zoom放大缩小(074)

第074个 点击查看专栏目录 本示例的目的是介绍演示如何在vue+leaflet中使用zoomslider,相比于普通的zoom控件,这个更加形象,更加具体些。 直接复制下面的 vue+leaflet源代码,操作2分钟即可运行实现效果 文章目录 示例效果配置方式示例源代码(共65行)相关API参考:专栏目…...

10分钟学会python对接【OpenAI API篇】

今天学习 OpenAI API,你将能够访问 OpenAI 的强大模型,例如用于自然语言的 GPT-3、用于将自然语言翻译为代码的 Codex 以及用于创建和编辑原始图像的 DALL-E。 首先获取生成 API 密钥 在我们开始使用 OpenAI API 之前,我们需要登录我们的 Op…...

2023美赛必须注意事项

文章目录首页部分要求竞赛期间题目查看题目下载论文要求比赛提示控制号提交解决方案更多注意事项首页部分要求 具体如下: 我提取一些关键词如下: 第一页:摘要页字体要求:12点的 Times New Roman 字体请勿在此页面或任何页面上…...

抖音关键词排名系统/百度seo查询

深入理解es6和es6标准入门哪本好Dubbo的分布式系统架构实战需要哪些步骤完成HTML如何添加水平分割线:HTML提供了修饰段落的水平分割线,在很多的网页布局中都可以轻松使用,而不需要另外作图。水平分割线的标签是单标签: 默认情况下只占一行。 …...

广州做网站好的公司/网络营销师资格证

CSS布局实例:上中下三行布局,上下定高,中间栏自适应浏览器高度,且内容垂直居中。本文代码在firefox 2.0 / winie 6/ win ie 7 /opera 8.5 cn/win safari测试通过。对于非ie内核浏览器,通过设定display:table、display:table-row和…...

济南微网站开发/百度一下首页网页手机版

jsp的常用指令有哪些(编译指令/动作指令整理) JSP动作指令 JSP - JSP中的脚本、指令、动作和注释...

做网站能挣多少钱/下载百度官方版

大家好,要么做连锁、要么被连锁,我是连锁大亨。要么做连锁,要么被连锁,大家好,我是连锁大亨。哈佛商学院:“连锁,是21世纪最好的商业模式!”我们会发现这并不是一个新新世界&#xf…...

生产软件/seo优化与品牌官网定制

摘要: 手把手教你用(Python)零起步数学神经网络入门!在这篇文章中,我们将在Python中从头开始了解用于构建具有各种层神经网络(完全连接,卷积等)的小型库中的机器学习和代码。最终,我们将能够写出如下内容:假…...

java网站建设技术参数/注册网站多少钱

python中使用import来将别的模块导入到自己的脚本里面使用,那么什么样的文件才能被识别为模块,又该如何制作自己的模块呢。这一切都得从__init__.py这个文件说起。 我是T型人小付,一位坚持终身学习的互联网从业者。喜欢我的博客欢迎在csdn上关…...