当前位置: 首页 > news >正文

在AWS EMR上用Hive、Spark、Airflow构建一个高效的ETL程序

在AWS EMR(Elastic MapReduce)上构建一个高效的ETL程序,使用Hive作为数据仓库,Spark作为计算引擎,Airflow作为调度工具时,有几个关键的设计与实施方面需要注意。
在AWS EMR上构建高效的ETL程序,首先需要设计合理的集群架构、数据存储结构和计算框架,并优化每个环节的性能。通过合理配置Hive与Spark的参数,充分利用Airflow的调度功能,可以大大提升ETL流程的效率和可维护性。与此同时,需要时刻关注集群资源管理、数据质量控制和成本优化,确保ETL程序在长期运行中的稳定性和高效性。以下是从架构、性能优化、可维护性、可扩展性等角度的考虑:

1. 架构设计与选择

  • 数据存储:
    使用Amazon S3作为数据存储层,因为它具有高可扩展性、低成本以及与EMR和Hive的兼容性。可以使用不同的S3存储路径来管理原始数据、临时数据和处理后的数据。

  • Hive配置:

    • Hive Metastore: Hive的元数据存储可以使用内置的Derby数据库,但为了高可用性和可扩展性,建议使用Amazon RDS(如MySQL或PostgreSQL)作为Hive的外部Metastore。
    • Partitioning & Bucketing: 为了提高查询性能,使用Hive的分区(Partitioning)和桶化(Bucketing)机制来优化大数据集的读取。
  • Spark配置:

    • Spark通常作为ETL的计算引擎,提供了强大的内存计算能力。
    • 配置适当的executordriver资源:根据数据的规模和集群资源,合理分配executor的内存和核心数,以避免OOM(OutOfMemory)问题。
    • 开启Spark的dynamic allocation,使其能够根据工作负载动态调整资源。
  • Airflow:

    • Airflow作为调度工具,可以自动化ETL任务的执行。你需要通过Airflow配置Spark任务的依赖关系,并确保每个任务的错误处理和重试机制合理。
    • 使用EmrCreateJobFlowOperatorEmrTerminateJobFlowOperator来管理EMR集群的生命周期。

2. 性能优化

  • 数据处理:

    • Spark配置:
      在Spark中,数据的分区数量对性能有很大影响。使用适当的repartitioncoalesce方法来优化数据分区。例如,如果要将数据写入S3并避免小文件问题,可以选择使用coalesce方法合并分区数。

    • 数据缓存:
      对于需要多次使用的数据集,可以使用Spark的cachepersist操作来提高性能,减少计算开销。

    • 分布式计算优化:
      如果数据量非常大,建议使用broadcast joins来优化Spark的Join操作,特别是在一个表非常小的时候。

    • 数据分区与并行度优化

    • 合理设置分区数:Spark 的计算任务是通过将数据分区并行处理来加速的。确保分区数与数据量及集群的计算能力匹配。一般来说,分区数应该是节点数的倍数。可以通过 spark.default.parallelismspark.sql.shuffle.partitions 来调整并行度。

    • 避免过多或过少的分区:分区太少可能导致资源浪费,分区太多则可能导致管理和调度开销增加。通常每个分区的大小应该在 100MB 左右。

    • 重新分区:对于某些操作,比如 groupByjoin,使用 repartitioncoalesce 来调整分区数,避免不必要的 shuffle 操作。

    • 数据倾斜处理

    • 数据倾斜是指某些任务的数据量过大,导致计算不均衡,从而影响集群性能。为了解决数据倾斜问题,可以考虑以下方法:

      • 广播 Join:当一张表数据很小,可以将其广播到所有节点,从而避免 shuffle 操作。使用 broadcast() 可以显式地实现这一点。
      • Salting:对于倾斜的键值,可以将键值加上随机值(盐salt,这样可以使数据更加均匀地分布。
      • 合适的 join 策略:使用 sort-merge join 或者 shuffle hash join 来避免过多的 shuffle。
    • 内存管理与资源配置

    • 内存配置:合理配置 Spark 任务的内存分配,避免因内存不足导致的垃圾回收频繁或 OOM 错误。调整以下参数:

      • spark.executor.memory:每个 Executor 的内存大小。
      • spark.driver.memory:Driver 的内存大小。
      • spark.memory.fraction:用于存储缓存数据的内存比例。
    • 数据缓存:对于重复使用的数据集,可以使用 cache()persist() 将数据存储在内存中,减少磁盘 I/O 操作。

    • 垃圾回收调优:Spark 的 JVM 堆内存管理可能影响性能,调节 JVM 的垃圾回收参数可以提高性能。比如,增加 spark.executor.extraJavaOptions 来优化 GC(垃圾回收)设置。

    • 避免不必要的 Shuffle 操作

    • Shuffle 操作会导致网络 I/O,增加计算延迟。为了减少 shuffle 操作,应该尽量避免以下场景:

      • 不必要的 groupBy:只有在需要进行聚合或分组时,才进行 groupBy 操作。
      • 避免多次 shuffle:可以通过调整作业中的计算顺序或使用 coalesce() 将多个分区合并成一个,减少 shuffle 操作。
      • 缓存中间结果:对于需要多次 shuffle 的中间结果,可以考虑缓存它们,以避免多次计算。
    • 合适的 Spark SQL 优化

    • 使用 Spark SQL:Spark SQL 在查询优化方面有很好的表现,特别是通过 Catalyst 优化器和 Tungsten 执行引擎。通过将计算任务转换为 SQL 查询,Spark 能自动进行一些优化(如谓词下推、常量折叠等)。

    • 使用 DataFrame 和 Dataset API:尽量避免使用 RDD,使用 DataFrame 和 Dataset API 提供的更高层次的抽象。它们能够自动利用 Spark SQL 优化器进行优化。

    • 调整 Shuffle 操作和文件格式

    • 选择合适的文件格式:选择合适的文件格式(如 Parquet 或 ORC)可以显著提高 Spark 任务的性能。相对于传统的 CSV 或 JSON 格式,这些列式存储格式更适合分布式计算,提供了压缩、分区和查询优化的优势。

    • 避免过多的小文件:Spark 对大量小文件的处理效率较低,因此要尽量避免生成小文件。在写入输出时,使用 coalesce()repartition() 来合并小文件。

    • 集群资源管理

    • 合理的资源分配:合理配置 Spark 集群的资源分配(如 CPU 核心数、内存大小等),确保资源得到充分利用。通过调整以下参数来控制资源的分配:

      • spark.executor.cores:每个 Executor 使用的 CPU 核心数。
      • spark.executor.memory:每个 Executor 的内存大小。
      • spark.driver.cores:Driver 端使用的 CPU 核心数。
    • 资源过载预防:避免将过多任务分配给少量 Executor,防止资源过载,可以通过动态资源分配(如启用 spark.dynamicAllocation.enabled)来确保资源的合理分配。

    • 并行任务和调度优化

    • 任务调度优化:使用 spark.sql.shuffle.partitions 调整 SQL 操作中的 shuffle 分区数,防止 Spark 在 Shuffle 操作中进行过多的并行任务。

    • 避免跨节点通信:尽量将计算局限于单个节点内,以减少网络通信开销。

    • 监控与调试

    • 使用 Spark UI:Spark 提供了一个强大的 Web UI,可以查看各个阶段的任务执行情况、存储情况和执行时间,帮助找出瓶颈。

    • 日志与指标监控:监控作业的执行日志,尤其是在使用 YARN 或 Kubernetes 时,查看资源分配和作业状态,优化集群资源使用。

    • 调试工具:使用 Spark 的调试工具和 Profiler 来进一步识别和优化性能瓶颈。

    • 优化 I/O 操作

    • 压缩与序列化:在数据存储时,使用压缩格式(如 Parquet、ORC)和高效的序列化格式(如 Kryo)来减少磁盘 I/O 和网络传输开销。

    • 持久化优化:对于经常使用的中间结果,可以在内存或磁盘中持久化数据,但应根据数据量大小和集群资源来选择存储方式。

  • Hive优化:

    • Parquet格式: 使用Parquet等列式存储格式,以提高读取性能,并减少存储空间。

    • 分区管理: 分区表可以大大提高查询效率,尤其是在大规模数据查询时。建议根据业务需求选择合理的分区字段(例如日期、地区等)。

    • 表结构优化: 使用合适的数据类型,并避免复杂的嵌套结构,以提高查询性能。

    • 表和分区设计优化

    • 使用分区 (Partitioning)

      • 对大数据表进行分区(例如,按日期、地区等字段分区)可以显著提高查询性能,避免扫描整个表,减少 I/O 操作。
      • 选择合适的分区字段非常重要,避免分区过多或过少。
    • 使用桶 (Bucketing)

      • 在表上应用桶化可以进一步优化查询性能,特别是对于涉及大规模 JOIN 操作的查询。桶化会将数据根据特定的字段值分割成多个小文件,提高查询的并行度。
      • 在执行 JOIN 操作时,Hive 会自动使用桶化表的映射关系来减少数据的扫描量和 shuffle 过程。
    • 合理选择主键

      • 虽然 Hive 本身不直接支持主键和外键约束,但可以设计合适的字段用于去重操作,从而减少存储空间和查询时间。
    • 查询优化

    • 避免全表扫描 (Full Table Scan)

      • 使用 WHERE 子句过滤条件来减少扫描的行数,尽量避免全表扫描。
      • 尽量避免在 WHERE 子句中使用非索引字段或复杂的计算。
    • 使用列裁剪 (Column Pruning)

      • 仅选择必要的列进行查询,避免在查询中选择不需要的列,减少数据的传输和 I/O 开销。
    • 查询推理优化

      • Hive 允许在查询中推断一些优化。例如,Hive 会在查询执行时根据查询条件自动对某些操作进行合并(如合并 JOINGROUP BY 操作),尽量减少中间数据的生成和网络传输。
    • 执行引擎优化

    • 开启 Tez 或 Spark 作为执行引擎

      • Hive 传统上使用 MapReduce 作为查询执行引擎,但这通常会有较大的启动开销和较慢的执行速度。可以将执行引擎切换为 Tez 或 Spark,以提高查询性能。
    • 调整执行引擎参数

      • 根据不同的执行引擎,调整相关的参数(如 Tez 的 tez.am.resource.memory.mb 或 Spark 的 spark.sql.shuffle.partitions)以优化作业的资源使用。
    • 数据存储格式优化

    • 使用合适的文件格式

      • Hive 支持多种数据存储格式,选择合适的文件格式可以显著提升查询性能。常见的优化格式包括:
        • ORC (Optimized Row Columnar):适合大数据量查询,支持列式存储和高效压缩,读取速度较快。
        • Parquet:也支持列式存储,尤其适用于结构化数据,能够提供压缩和分区查询优化。
        • Avro:适合用于 ETL 处理,支持复杂数据类型,但在读取性能上逊色于 ORC 和 Parquet。
      • 对于查询密集型的应用,推荐使用 ORCParquet 格式,因其高效的列式存储和压缩能力。
    • 优化执行计划

    • 开启查询执行计划(Explain)

      • 使用 EXPLAIN 语句查看查询的执行计划,了解数据如何被处理、Join 类型以及是否涉及全表扫描等。通过分析执行计划来找出性能瓶颈。
    • 使用索引(Indexing)

      • 创建适当的索引(如基于 WHERE 子句中的常用字段)可以提高查询性能,尤其是在大表和复杂查询的情况下。Hive 允许为非分区表创建索引,但要根据实际情况选择性使用。
    • 内存和资源配置优化

    • 调整 JVM 内存设置

      • 通过调整 Hive、Tez、Spark 等执行引擎的 JVM 参数,如堆内存(-Xmx)、GC 策略(-XX:ParallelGCThreads)等,可以优化性能。
    • 资源分配(Resource Allocation)

      • 合理配置集群资源,如 Map/Reduce 的内存和 CPU 核心数目,确保 Hive 作业不会因为资源不足而导致慢查询。
    • 增加并行度(Parallelism)

      • 调整参数以增加查询的并行度,例如 mapreduce.map.memory.mbmapreduce.reduce.memory.mb 等,可以提高作业的执行效率。
    • 缓存和物化视图

    • 使用结果缓存

      • 对于频繁执行的查询,可以考虑使用结果缓存(如 Apache Hive 中的 Hive-on-TezHive-on-Spark)来缓存中间结果,避免重复计算。
    • 物化视图 (Materialized Views)

      • 对于一些计算复杂、查询频繁的 SQL 语句,可以使用物化视图存储预计算结果,避免每次查询都进行复杂的计算。
    • 分布式计算优化

    • 调整 Hive 的 mapreduce 参数

      • mapreduce.input.fileinputformat.split.maxsizemapreduce.input.fileinputformat.split.minsize,根据文件的大小和集群负载情况调整,确保数据的拆分合理,以避免过多的小文件。
    • 减少 MapReduce 任务数

      • 可以通过调整 mapreduce.map.output.collector.classhive.exec.reducers.bytes.per.reducer 等参数,控制最终的 MapReduce 任务数量,避免产生过多的小任务,影响集群性能。
    • 小文件优化

    • 避免小文件

      • 在 Hive 中生成大量小文件会导致 I/O 性能瓶颈,建议将数据进行合并(使用 MERGE 语句或 hive.merge.smallfiles.avgsize 配置),以减少小文件带来的问题。
    • 动态分区合并

      • 对动态分区进行合并,避免每个查询生成一个独立的输出文件。
    • 定期清理和维护

    • 统计信息收集

      • 使用 ANALYZE TABLE 命令定期收集表和分区的统计信息,帮助 Hive 更好地优化查询计划。
    • 清理不必要的临时数据

      • 定期清理 Hive 中的临时文件和不再需要的数据,以释放存储资源并提高查询效率。
    • Hadoop集群设置优化

      • HDFS块大小:

        • 增大HDFS块大小(例如设置为128MB或256MB)。大块大小减少了NameNode的负载,并提高了数据读取效率,特别是在进行大数据集的扫描时。
      • 副本数(Replication Factor):

        • 根据数据的可靠性需求调整副本数。较高的副本数增加存储空间需求,但能提高数据的冗余性和可用性。
      • DataNode数量:

        • 增加DataNode节点数量可以提升数据存储能力和并行处理能力,降低单一节点的负载。
      • NameNode性能:

        • 配置足够的内存和计算资源给NameNode,以避免性能瓶颈。
        • 使用Hadoop Federation(命名空间分片)来减轻单一NameNode的负担。
      • YARN调度器配置:

        • 使用适当的调度器(例如CapacityScheduler或FairScheduler),并合理配置资源池,确保集群资源得到有效利用。
        • 调整YARN的内存分配(如map和reduce任务的内存设置),避免内存不足或过度分配。
    • MapReduce作业优化

      • 合适的Map/Reduce任务数:

        • 根据数据量调整Map和Reduce的任务数。过多的任务会增加启动开销,过少的任务会导致计算资源浪费。
        • 通过mapreduce.job.mapsmapreduce.job.reduces配置来调整任务数。
      • 合适的Splits配置:

        • 在Map任务中,合理地配置Splits大小。Splits过小会增加任务的启动和调度开销,过大会导致单个任务的负载过高。
        • 使用mapreduce.input.fileinputformat.split.maxsize来控制每个split的最大大小。
      • Map和Reduce的内存调整:

        • 调整Map和Reduce任务的内存设置,避免发生内存溢出(OutOfMemoryError)或频繁的垃圾回收。通过mapreduce.map.memory.mbmapreduce.reduce.memory.mb进行配置。
      • 数据压缩:

        • 使用合适的数据压缩格式(例如Snappy、LZO、Gzip等)来减少磁盘I/O和网络带宽消耗。Hadoop支持多种压缩格式,可以在MapReduce任务中直接使用。
      • 优化Reduce阶段:

        • 适当增加Reduce任务的数量,避免单一的Reduce任务成为瓶颈。
        • 在Reduce阶段使用适当的排序和合并方法,减少不必要的计算。
      • 避免数据倾斜:

        • 在Reduce任务中,如果某些键的值过于集中,会导致数据倾斜。可以通过使用自定义的Partitioner,或者在Map阶段对数据进行预处理来减少数据倾斜。
    • Hadoop配置文件优化

      • MapReduce任务参数:

        • mapreduce.input.fileinputformat.split.minsize: 调整每个Map任务最小的输入数据量。
        • mapreduce.task.io.sort.mb: 设置Map任务排序阶段的内存。
        • mapreduce.reduce.shuffle.parallelcopies: 增加Reduce任务阶段的并行复制数量,减少shuffle的瓶颈。
      • YARN配置:

        • yarn.nodemanager.resource.memory-mb: 配置每个NodeManager可用的最大内存。
        • yarn.scheduler.maximum-allocation-mb: 控制YARN集群中每个容器可分配的最大内存。
        • yarn.nodemanager.resource.cpu-vcores: 配置每个NodeManager可用的CPU核心数。
      • HDFS配置:

        • dfs.replication: 设置HDFS数据块的副本数量。根据数据的可靠性需求进行调整。
        • dfs.blocksize: 设置HDFS数据块的大小,适当增大块大小可以提高吞吐量。
    • 数据本地性和任务调度优化

      • 数据本地性:
        • 使用YARN的本地性优化策略,如数据本地(DataLocality)来确保任务尽可能在存储数据的节点上执行,从而减少网络传输延迟。
        • 将作业的输入数据预先分配到节点上,以便任务能够在本地处理。
  • MapReduce任务调度:

    • 使用不同的调度器(如FairScheduler、CapacityScheduler)来根据任务优先级、资源需求和公平性策略来分配资源。

    • 设置适当的优先级和资源限制,避免过多低优先级作业占用过多资源。

    • 使用Spark等替代框架

      • 集成其他大数据框架:

        • 在一些特定场景下,Hadoop MapReduce的性能可能不如Spark等计算框架。如果任务对延迟要求较高或需要复杂的计算,可以考虑将Spark集成到Hadoop生态中,利用Spark更强大的内存计算能力。
      • 使用Hive、HBase等工具:

        • 对于结构化数据,可以使用Hive进行SQL查询优化。Hive支持与Hadoop的集成,并通过分区、索引等功能提高查询性能。
        • 使用HBase进行低延迟的随机读取和写入操作。
    • 监控与故障排除

      • 性能监控:

        • 定期监控Hadoop集群的性能指标,使用Hadoop自带的Web UI、Ganglia或其他监控工具(如Prometheus、Grafana)来检查任务执行情况、节点资源利用率等。
      • 日志分析:

        • 通过分析MapReduce、YARN、HDFS等日志,找出性能瓶颈和失败原因。

3. 集群与资源管理

  • EMR集群配置:

    • 在EMR集群上运行Spark和Hive时,合理配置EC2实例类型和数量。根据数据量和任务的复杂性,选择合适的实例类型(如r5.xlargem5.2xlarge等)来平衡计算与存储需求。
    • Auto-scaling: 利用EMR的自动扩展功能,根据负载自动增加或减少节点数,确保资源的高效利用。
    • Spot Instances: 使用Spot实例可以显著降低成本,但需要处理中断问题,可以结合On-Demand实例进行混合部署。
  • 资源监控:

    • 使用AWS CloudWatch监控EMR集群和Spark任务的运行状况,并配置报警以便及时发现集群资源瓶颈或故障。
    • 结合AWS EMR的日志管理(如CloudWatch Logs)进行Spark任务的日志分析,以便后期调优。

4. ETL流程管理与调度

  • Airflow DAG设计:

    • 将ETL任务划分为多个子任务(task),并合理设置任务的依赖关系。每个子任务对应一个Spark作业或Hive查询。
    • 在Airflow中,使用EmrStepOperator来提交Spark作业,使用EmrCreateJobFlowOperator来创建EMR集群,EmrTerminateJobFlowOperator来销毁EMR集群。
    • 确保Airflow DAG的任务依赖关系清晰,任务失败时能够自动重试。
  • Airflow与EMR集群的集成:

    • 动态集群管理: 对于短期任务,建议在每次ETL执行时动态创建EMR集群,任务完成后自动销毁,节省成本。
    • 集群重用: 对于持续运行的ETL任务,可以考虑重用已有的EMR集群,而不是每次都创建新的集群。
    • DAG调度: 根据业务需求设定ETL任务的调度频率(如每日、每小时等)。Airflow支持多种调度方式,可以通过CRON表达式灵活配置。

5. 数据质量与错误处理

  • 数据校验: 在ETL过程中,添加数据校验任务,确保输入数据和输出数据的质量。例如,校验数据完整性、数据格式等。
  • 错误处理机制: 在Spark和Hive作业中添加合适的异常处理逻辑,如数据处理失败时,Airflow能够自动重试任务或发出报警通知。

6. 安全性

  • IAM角色与权限: 为EMR、Airflow以及其他AWS服务(如S3、RDS、CloudWatch等)配置适当的IAM角色和权限,以确保数据的安全性和合规性。
  • 数据加密: 在S3中存储数据时,启用数据加密(SSE-S3或SSE-KMS)。同时,考虑加密传输过程中使用的Spark和Hive数据。

7. 成本管理

  • 成本监控: 利用AWS的成本管理工具,监控集群运行成本,确保合理配置实例类型与数量。
  • 数据存储: 优化存储成本,定期清理不需要的数据,使用低频存储等。

相关文章:

在AWS EMR上用Hive、Spark、Airflow构建一个高效的ETL程序

在AWS EMR(Elastic MapReduce)上构建一个高效的ETL程序,使用Hive作为数据仓库,Spark作为计算引擎,Airflow作为调度工具时,有几个关键的设计与实施方面需要注意。 在AWS EMR上构建高效的ETL程序,…...

前端(四)css选择器、css的三大特性

css选择器、css的三大特性 文章目录 css选择器、css的三大特性一、css介绍二、css选择器2.1 基本选择器2.2 组合选择器2.3 交集并集选择器2.4序列选择器2.5属性选择器2.6伪类选择器2.7伪元素选择器 三、css三大特性3.1 继承性3.2 层叠性3.3 优先级 一、css介绍 CSS全称为Casca…...

vscode 打开 setting.json

按下Ctrl Shift P(Windows/Linux)或Cmd Shift P(Mac)来打开命令面板。输入open settings,然后选择 Open User Settings(JSON)。打开settings.json文件 ------修改设置-----: 1、 html代码的行长度&am…...

关于网络安全攻防演化博弈的研究小议

1. 拉高视角,从宏观看网络安全攻防 伴随着信息化的发展,网络安全的问题就一直日益突出,与此同时,网络安全技术也成为研究热点,直到今日也没有停止。 从微观来看,网络安全技术研究指的是针对某项或某几项…...

【FAQ】HarmonyOS SDK 闭源开放能力 —Push Kit(7)

1.问题描述: 推送通知到手机,怎么配置拉起应用指定的页面? 解决方案: 1、如果点击通知栏打开默认Ability的话, actionType可以设置为0, 同时可以在.clickAction.data中,指定待跳转的page页面…...

远程桌面防护的几种方式及优缺点分析

远程桌面登录是管理服务器最主要的方式,于是很多不法分子打起了远程桌面的歪心思。他们采用暴力破解或撞库的方式破解系统密码,悄悄潜入服务器而管理员不自知。 同时远程桌面服务中的远程代码执行漏洞也严重威胁着服务器的安全,攻击者可以利…...

ASP.NET|日常开发中连接Sqlite数据库详解

ASP.NET|日常开发中连接Sqlite数据库详解 前言一、安装和引用相关库1.1 安装 SQLite 驱动1.2 引用命名空间 二、配置连接字符串2.1 连接字符串的基本格式 三、建立数据库连接3.1 创建连接对象并打开连接 四、执行数据库操作4.1 创建表(以简单的用户表为例…...

python的自动化seleium安装配置(包含谷歌的chromedriver)

目录 前言介绍 一、下载谷歌浏览器chromedriver (一)查看谷歌浏览器版本 (二)去官网下载谷歌驱动(chromdriver) (三)谷歌浏览器安装位置解压 (四)配置环境变量 二、pychram里下载安装selenium 三、测试selenium是否成功 前言介绍 Selenium是一个开源的自动化测试工具&…...

QT requested database does not belong to the calling thread.线程中查询数据报错

QT requested database does not belong to the calling thread.线程中查询数据报错 QString name "ttx"; QSqlQueryModel* sql_model; QString sql_comm QString("select * from dssb_moddve_loddt_tab where name%1").arg(name); sql_model->set…...

服务器一般装什么系统?

在服务器管理中,操作系统的选择是一个关键因素,它直接影响到服务器的稳定性、性能和可维护性。那么为什么有些服务器选择Linux,而不是Windows?选择合适的操作系统对服务器的性能和安全性有多么重要? 在众多操作系统中…...

Linux vi/vim 编辑器使用教程

Linux vi/vim 编辑器使用教程 引言 Linux 系统中的 vi 和 vim 是非常强大的文本编辑器,它们以其高效性和灵活性而闻名。vim 是 vi 的增强版,提供了更多的功能和改进的用户界面。本文将详细介绍 vi/vim 的基本用法,包括打开文件、编辑文本、…...

JavaEE多线程案例之阻塞队列

上文我们了解了多线程案例中的单例模式,此文我们来探讨多线程案例之阻塞队列吧 1. 阻塞队列是什么? 阻塞队列是⼀种特殊的队列.也遵守"先进先出"的原则. 阻塞队列是⼀种线程安全的数据结构,并且具有以下特性: 当队列满的时候,继续⼊队列就会…...

梳理你的思路(从OOP到架构设计)_基本OOP知识04

目录 1、 主动型 vs.基於被动型 API 1)卡榫函数实现API 2)API的分类 3)回顾历史 4)API >控制力 2、 结语&复习: 接口与类 1)接口的表示 2)Java的接口表示 1、 主动型 vs.基於被动…...

nginx反向代理(负载均衡)

nginx的代理 代理 四层代理 七层代理 正向代理和缓存的配置方式 🐭🐮🐯🐰🐉🐍🐴🐑🐒🐔🐶🐷 反向代理》负载均衡 负载均衡&#xff…...

Android系统应用主要模块

设置 Android Settings开发总结 Launcher Android Launcher开发学习总结 System UI Android SystemUI 学习总结...

【万字详解】三维重建(二)——NeRF、NeuS、MeshUDF、NeuralUDF、3DGS、GShell

文章目录 一、NeRF:Representing Scenes as Neural Radiance Fields for View Synthesis(推荐读)1.1 式1 神经网络的输入和输出1.2 式2 体素渲染算法1.3 式3 损失函数1.4 位置编码1.5 基本原理二、经典的重建流程2.1 传统的三维重建pipeline2.2 神经网络回归2.3 可微渲染最优…...

【RK3588 Linux 5.x 内核编程】-内核线程与Seqlock

内核线程与Seqlock 文章目录 内核线程与Seqlock1、Seqlock介绍2、Seqlock相关API2.1 初始化2.2 写操作2.3 读操作3、驱动实现4、驱动验证在前面的文章中,我们介绍了 Mutex、Spinlock、Read/Write Spinlock 的使用及其实现。 它们都用于保护共享资源不被两个或多个进程同时修改…...

访问者模式的理解和实践

在软件开发过程中,设计模式为我们提供了解决常见问题的最佳实践。访问者模式(Visitor Pattern)是行为设计模式之一,它将数据操作与数据结构分离,使得在不修改数据结构的前提下,能够定义作用于这些元素的新的…...

在Scala中对Map函数的使用

package pp28{object cscc {def main(args: Array[String]): Unit {val m1 Map("马云 — 阿里巴巴" -> 1964,"马化腾 — 腾讯" -> 1971,"李彦宏 - 百度" -> 1968,"雷军 - 小米" -> 1969,"丁磊 - 网易" -> …...

PyTorch基本使用-张量的索引操作

在操作张量时,经常要去获取某些元素进行处理或者修改操作,在这里需要了解torch中的索引操作。 准备数据: data torch.randint(0,10,[4,5]) print(data--->,data)输出结果: data---> tensor([[3, 9, 4, 0, 5],[7, 5, 9, …...

OpenCV实验:图片加水印

第二篇:图片添加水印(加 logo) 1. 实验原理 水印原理: 图片添加水印是图像叠加的一种应用,分为透明水印和不透明水印。水印的实现通常依赖于像素值操作,将水印图片融合到目标图片中,常用的方法…...

sql server log文件

确定 SQL Server 实例中具有大量 VDF 的数据库 SELECT [name], COUNT(l.database_id) AS vlf_count FROM sys.databases AS s CROSS APPLY sys.dm_db_log_info(s.database_id) AS l GROUP BY [name] HAVING COUNT(l.database_id) > 100; 在收缩日志文件之前确定事务日志中…...

Elasticsearch 集群部署

Elasticsearch 是一个分布式的搜索和分析引擎,广泛应用于日志分析、全文搜索、实时数据分析等场景。它以其高性能、高可用性和易用性而著称。本文档将引导您完成一个基本的 Elasticsearch 集群配置,包括节点间的通信、客户端访问、安全设置等关键步骤。我…...

微信小程序5-图片实现点击动作和动态加载同类数据

搜索 微信小程序 “动物觅踪” 观看效果 感谢阅读,初学小白,有错指正。 一、功能描述 a. 原本想通过按钮加载背景图片,来实现一个可以点击的搜索button,但是遇到两个难点,一是按钮大小调整不方便(网上搜索…...

策略梯度定理公式的详细推导

策略梯度定理公式的详细推导 以下是策略梯度定理公式从基础概率公式到最终形式的完整推导,帮助更清晰地理解推导过程中的每一个步骤。 1. 策略梯度的目标 我们希望最大化期望累积奖励 ( J ( θ ) J(\theta) J(θ) ),其定义为: J ( θ ) E…...

力扣-图论-10【算法学习day.60】

前言 ###我做这类文章一个重要的目的还是给正在学习的大家提供方向和记录学习过程(例如想要掌握基础用法,该刷哪些题?)我的解析也不会做的非常详细,只会提供思路和一些关键点,力扣上的大佬们的题解质量是非…...

《Python WEB安全 库全解析》

《Python WEB安全 库全解析》 一、Python WEB安全 库概述二、常见的 Python WEB安全 库介绍1. Jiasule2. Awesome Python Security3. Flask-Security4. Flask-SeaSurf 三、Python WEB 安全库的优缺点1. 优点2. 缺点 四、Python WEB 安全库的使用场景1. 开发 Web 应用2. 处理敏感…...

Linux yum-config-manager命令异常

错误信息 使用 yum-config-manager命令时错误信息如下 sudo yum-config-manager \ > --add-repo \ > https://download.docker.com/linux/centos/docker-ce.repo sudo: yum-config-manager: command not found 解决办法 第一步: sudo yum -y install yum-u…...

ios 开发配置蓝牙

如果使用了蓝牙功能, 又没有配置, 会出现以下错误: This app has crashed because it attempted to access privacy-sensitive data without a usage description. The apps Info.plist must contain an NSBluetoothAlwaysUsageDescription key with a string value explaini…...

geoserver(1) 发布sql 图层 支持自定义参数

前提使用postgis 数据库支持关联 join 支持 in,not in,like,及其他sql原生函数 新增sql图层 编写自定义sql 编辑sql语句必须输出带有geom数据 正则表达式去除 设置id以及坐标参考系 预览sql图层效果 拼接sql参数 http://xxx.com/geoserver/weather/wms?SERVICEWMS&VERSI…...

做网站需要前置审批/百度快速排名软件下载

chatGPT基于所谓的大模型,这里有两个关键词一个是“大”,一个是“模型”,我们先看什么叫“模型”。所谓模型其实就是深度学习中的神经网络,后者由很多个称之为“神经元”基本单元组成。神经元是一种基础计算单元,它执行…...

ui界面设计师/网站seo优化的目的

网络工程师成长日记371-卡夫食品中国有限公司项目回忆录 这是我的第371篇原创文章,记录网络工程师行业的点点滴滴,结交IT行业有缘之人 今天,我与老大一起去中大国际,为卡夫食品中国有限公司做项目尽管是项目不大,但第一…...

wordpress配置文件是/十大基本营销方式

time和datetime的区别 之前,我们已经介绍过了python中的datetime模块,time的功能在很大程度上和datetime比较类似,也是用于处理日期和时间的。但是如果你要处理日期的话,使用datetime要更好。因此建议不需要通过time来处理日期&a…...

品牌网站建设/谷歌推广哪家公司好

接上一章 ASDM访问防火墙 ASA 防火墙访问控制的配置 关于配置一条全通的 global 策略 在 Configuration > Firewall > Access Rules 里面。添加一条全通的 global 策略,添加后发现居然ping不通。 解决方法如下: 1.检查 Device Setup–Interfaces里…...

软件工程师招聘信息网站/郑州seo优化推广

CMM简介张友生 (本文转载自软件工程专家网www.21cmm.com)   CMM是软件过程能力成熟度模型(Capacity Maturity Model)的简称,是卡内基-梅隆大学软件工程研究院为了满足美国联邦政府评估软件供应 商能力的要…...

分析苏宁易购的网站建设/网站排名查询工具有哪些

~~~题面~~~ 题解: 这是一道强题emmmm,做法非常巧妙,,,我也是看了好久大佬题解才看明白一点 首先考虑没有限制的情况,即n个老鼠可以在同…...