当前位置：首页 > news >正文

大数据面试题之Hive(2)

news 2026/4/2 12:13:55

Hive的join操作原理，leftjoin、right join、inner join、outer join的异同?

Hive如何优化join操作

Hive的mapjoin

Hive语句的运行机制，例如包含where、having、group by、orderby，整个的执行过程?

Hive使用的时候会将数据同步到HDFS，小文件问题怎么解决的?

Hive Shuffle的具体过程

Hive有哪些保存元数据的方式，都有什么特点?

Hive SOL实现查询用户连续登陆，讲讲思路

Hive的开窗函数有哪些

Hive存储数据吗

Hive的join操作原理，leftjoin、right join、inner join、outer join的异同?

Inner Join（内连接）
原理：Inner Join返回两个表中具有匹配关联键的所有行。如果在其中一个表中找不到匹配项，那么结果集中就
不会包含该行。
特点：结果集仅包含两个表中关联键相等的行。Left Join（左连接）
原理：Left Join返回左表（左边的表）的所有行，即使在右表中没有匹配项。如果右表中没有匹配项，则结果
集中右表的部分将填充NULL值。
特点：结果集包含左表的所有行，右表中无匹配的行以NULL填充。Right Join（右连接）
原理：与Left Join相反，Right Join返回右表（右边的表）的所有行，即使在左表中没有匹配项。左表中无
匹配的行将以NULL值填充。
特点：结果集包含右表的所有行，左表中无匹配的行以NULL填充。Full Outer Join（全外连接）
原理：Full Outer Join返回左表和右表中所有行的组合。如果某行在另一个表中没有匹配项，则另一个表对应
的列值将为NULL。
特点：结果集包含两个表的所有行，任一表中无匹配的行以NULL填充。Outer Join（外连接）
Outer Join是一个总称，实际上指的是Left Outer Join、Right Outer Join或Full Outer Join中的
任何一种。在某些数据库或上下文中，"Outer Join"可能特指其中一种，但在Hive中，通常需要明确指定是
Left、Right还是Full。Left Semi Join（左半连接/半连接）
原理：这是一种特殊的Join操作，它只返回左表中存在与右表匹配的行，但是结果集中不会包含右表的任何列，
只显示左表匹配的行。
特点：优化了数据处理，特别是当只需要判断是否存在匹配，而不需要实际合并数据时非常有用。

Hive如何优化join操作

1、选择正确的JOIN类型：
使用INNER JOIN只返回两个表中都有的记录。
如果只需要左表的所有记录，即使右表中没有匹配的记录，也要使用LEFT OUTER JOIN。
根据需求选择其他类型的JOIN（如RIGHT OUTER JOIN, FULL OUTER JOIN）。2、使用Map Join：
如果一个表很小（通常称为“小表”），你可以考虑使用Map Join。在Hive中，小表会被加载到每个mapper的内
存中，从而避免了shuffle和reduce阶段。
使用/*+ MAPJOIN(small_table) */提示来启用Map Join。3、排序和分区：
对JOIN的键进行排序可以加速JOIN操作。
使用分区来减少跨多个HDFS块的数据读取。确保JOIN的键与表的分区键匹配。4、启用Bucket Map Join：
如果两个表都很大，但它们的JOIN键有相同的桶数和相同的哈希函数，你可以使用Bucket Map Join。这允许
Hive在mapper级别直接进行JOIN操作，而无需reduce阶段。5、优化Hive配置：
增加mapreduce.map.memory.mb和mapreduce.reduce.memory.mb以增加mapper和reducer的内存。
调整hive.auto.convert.join和hive.mapjoin.smalltable.filesize以自动优化JOIN操作。6、使用Bucketing和Skew Join：
如果数据倾斜严重，考虑使用Bucketing和Skew Join优化。这允许Hive更好地处理具有不同数据分布的数据
集。7、使用ORC或Parquet格式：
ORC和Parquet是Hive中常用的列式存储格式，它们比文本格式（如CSV）更高效。这些格式允许Hive只读取所
需的列，从而减少I/O。8、减少数据倾斜：
数据倾斜是指某些键的数据量远大于其他键。这会导致某些reducer处理的数据量远大于其他reducer，从而延
长整个JOB的执行时间。考虑对数据进行重新分区或预聚合以减少倾斜。9、启用Vectorization：
Hive支持向量化执行，它允许一次处理多行数据，从而提高性能。通过设置hive.vectorized.execution.enabled为true来启用它。10、监控和调优：
使用Hive的查询执行计划和资源管理器来监控JOB的性能。根据观察到的瓶颈（如CPU、内存、磁盘I/O）进行调
整。
考虑使用YARN ResourceManager UI或HiveServer2 UI来查看作业的详细信息和资源使用情况。11、索引：
虽然Hive不像关系型数据库那样支持传统的B-tree索引，但它支持其他类型的索引，如分区索引和物化视图。在
适当的情况下使用这些索引可以加速JOIN操作。但是，请注意，索引也会占用额外的存储空间，并可能增加数据
写入的复杂性。12、考虑使用其他工具：
如果Hive的JOIN性能仍然是一个问题，并且你的数据集适合其他工具（如Spark SQL、Flink SQL或Presto），那么考虑使用这些工具来执行JOIN操作。这些工具可能提供了更好的性能优化和更灵活的执行计划。

Hive的mapjoin

Hive 中的 MapJoin 是一种在 Map 阶段完成表连接的操作，它与普通的连接（Common Join）不同。在 
MapJoin 中，Hive 会将小表全部读入内存中，并在 Map 阶段直接将其与大表进行连接，从而避免了在 
Reduce 阶段进行数据分发和连接的开销。MapJoin 的适用场景包括大表与小表的连接，以及不等值连接等。通过在 SQL 语句中添加/*+ 
MAPJOIN(smallTable) */提示或设置相关参数，Hive 可以自动将连接操作转换为 MapJoin。
与 Common Join 相比，MapJoin 省去了 Shuffle 阶段，减少了数据传输和排序的开销，因此在处理大表与
小表连接时具有更好的性能。然而，MapJoin 也有一些限制，例如需要将小表完全加载到内存中，因此对于过大
的小表可能不太适用。
在实际应用中，需要根据数据量、表大小和性能要求等因素来选择合适的连接方式。如果连接的表中有一个非常小
的表（例如，一个包含几行数据的表），或者需要进行等值连接，并且数据存储在支持快速 I/O 和压缩的格式
（如 ORC 或 Parquet）中，那么 MapJoin 可能是一个较好的选择。

Hive语句的运行机制，例如包含where、having、group by、orderby，整个的执行过程?

Hive SQL语句的执行机制，尤其是包含WHERE、HAVING、GROUP BY、ORDER BY等子句的复杂查询，遵循一个
典型的分阶段处理流程。下面是一个简化的概述，展示这些子句如何影响查询的执行顺序：1、解析与分析（Parse & Analyze）：Hive首先解析SQL语句，生成抽象语法树（AST），然后进行语义分析，
验证查询的正确性，比如检查表和列是否存在。
2、逻辑计划生成（Logical Plan Generation）：基于分析结果，Hive构建一个逻辑执行计划，描述查询的
大致操作流程，但不涉及具体实现细节。
3、优化（Optimization）：Hive的优化器会应用一系列规则来改进逻辑计划，比如重写查询、消除冗余操作
等，以提高执行效率。
4、物理计划生成（Physical Plan Generation）：优化后的逻辑计划被转换为物理执行计划，此时会确定使
用哪些具体的MapReduce作业或其他执行引擎（如Tez、Spark）来执行查询，并规划每个阶段的任务。执行过程具体到WHERE、GROUP BY、HAVING、ORDER BY等子句时，大致流程如下：WHERE子句：在Map阶段或者 Reduce阶段之前（取决于具体优化策略），数据会被过滤。Hive尝试将尽可能多的
过滤条件推送到Map阶段执行，这称为谓词下推（Predicate Pushdown），以减少后续阶段处理的数据量。GROUP BY子句：在MapReduce模型中，GROUP BY操作通常在Reduce阶段执行。Map任务会对输入数据进行局
部聚合（如果启用了Map端聚合，即map-side aggregation），然后将聚合结果发送给Reducer，Reducer完
成全局聚合操作，即按指定列分组并聚合数据。HAVING子句：类似于WHERE，但作用于分组后的结果。因此，HAVING条件会在GROUP BY之后、在Reducer阶
段，用来过滤掉不符合条件的分组结果。ORDER BY子句：排序操作通常发生在最后一个Reduce阶段，或者如果使用了分布式排序（Distributed 
Sort），则在Map和Reduce阶段都有参与。这一步骤会消耗较多资源，特别是当处理大量数据时。为了优化，可
以结合LIMIT子句使用CLUSTER BY或DISTRIBUTE BY来限制排序范围。整个过程中，数据在MapReduce作业间流动，先经过筛选（WHERE）、局部聚合（如果适用），然后分组（GROUP 
BY）、再次筛选（HAVING），最后排序（ORDER BY），输出结果。每一步都旨在高效地处理大规模数据集。

Hive使用的时候会将数据同步到HDFS，小文件问题怎么解决的?

Hive在使用过程中确实会将数据存储于HDFS上，而小文件问题（即HDFS中存在大量远小于HDFS块大小的文件）
会影响集群性能和资源利用率。解决Hive中的小文件问题，可以采取以下几种策略：1、合并小文件：
使用SET hive.merge.mapfiles=true;和SET hive.merge.mapredfiles=true;配置，可以在Map-
only任务或MapReduce任务完成后自动合并小文件。
执行ALTER TABLE your_table CONCATENATE;命令手动触发文件合并，但这在新版本的Hive中可能已被废弃，建议使用更现代的解决方案如Insert overwrite目录或使用Spark/Hadoop的文件合并功能。2、Bucketing与分区结合：
使用分桶表（Bucketing）可以将数据预分割成固定大小的文件，减少小文件产生。合理设置桶的数量以平衡文
件大小和查询效率。3、调整动态分区参数：
动态分区产生的小文件问题可以通过调整hive.exec.dynamic.partition.mode（设置为非strict模式）、
hive.exec.max.dynamic.partitions、hive.exec.max.dynamic.partitions.pernode等参数控制分
区数量，避免过度分区。4、控制Reduce数量：
调整hive.exec.reducers.bytes.per.reducer参数，适当增加每个Reducer处理的数据量，减少Reducer
的数量，从而减少输出文件数量。5、数据导入策略：
在数据导入Hive前，先通过Hadoop的getmerge工具或使用Spark等框架预先合并小文件。6、使用Compaction：
对于ACID表，可以利用Hive的Compaction特性来合并小文件。Compaction过程会重新组织数据，减少文件数
量，优化查询性能。7、考虑使用外部工具或脚本：
定期运行脚本检测并合并HDFS上的小文件，虽然这不是Hive直接提供的功能，但对维护集群健康是有帮助的。8、采用更高效的执行引擎：
切换到Tez或Spark作为Hive的执行引擎，它们在处理小文件时可能更加高效，尤其是Spark有良好的数据处理和优化能力。

Hive Shuffle的具体过程

Hive Shuffle的具体过程可以清晰地分为以下几个步骤：1、Map任务输出：
Map任务会将数据处理的结果输出到本地缓存中。
当本地缓存的数据达到一定大小时，Hive会将数据写入临时文件中。2、数据准备：
所有Map任务完成后，Reducer任务开始执行。
Reducer任务会从所有Map任务的临时文件中读取数据。3、数据排序：
为了确保数据的正确性，在读取数据之前，Hive会对数据进行排序。
排序操作可以按照Hadoop的默认排序算法（按照key值进行排序）或自定义排序算法来实现。4、数据分区：
排序完成后，Hive会根据Reducer的数量进行数据的分区。
每个分区的数据会被写入一个临时文件中，以便Reducer任务进行后续处理。5、Reducer任务处理：
Reducer任务从对应的临时文件中读取数据。
将结果输出到HDFS（Hadoop Distributed File System）中。
需要注意的是，Hive Shuffle过程中由于需要将数据写入和读取临时文件，因此会产生额外的I/O开销，这可能会降低任务的执行效率。为了优化Hive Shuffle过程，可以采取以下措施：调整Map和Reduce任务的并行度：避免产生过多的临时文件，减少I/O开销。
选择合适的分区策略：确保具有相同key值的数据能够发送到同一个Reducer节点上进行处理，从而提高效率。优化排序算法：根据具体需求和数据特点选择合适的排序算法，提高排序效率。
使用Bucket Map Join：如果两个表都很大，但它们的JOIN键有相同的桶数和相同的哈希函数，可以考虑使用Bucket Map Join来避免shuffle和reduce阶段。
此外，还可以考虑其他因素来优化Hive的性能，如选择合适的存储格式、使用索引、调整Hive配置参数等。

Hive有哪些保存元数据的方式，都有什么特点?

在Hive中，有多种保存元数据的方式，以下是一些常见的方式及其特点：内存数据库（Derby）：Hive默认使用内嵌的Derby数据库来存储元数据。这种方式安装简单，配置方便。然而，
由于数据存储在内存中，不够稳定，且不支持多会话连接，因此不适用于生产环境。外部数据库（如MySQL）：将元数据保存在外部独立的数据库中，如MySQL。这种方式可以支持多会话连接，并且
数据可以持久化存储，具有更好的稳定性和可靠性。此外，使用外部数据库还可以方便地进行元数据的管理和维
护。

Hive SOL实现查询用户连续登陆，讲讲思路

在Hive中实现查询用户连续登录的逻辑，通常涉及到用户行为日志分析，这里我们可以采用窗口函数来实现这一
需求。以下是一个简化的思路和示例：基础假设
假设你有一个用户登录日志表user_login_logs，包含至少两列：user_id（用户ID）和login_date（登录
日期，格式为YYYY-MM-DD）。
我们定义“连续登录”为用户在连续的日期上均有登录记录。
为了简化，我们不考虑具体登录时间，仅关注日期。思路
排序与分组：首先，需要按user_id和login_date对数据进行排序，确保每个用户的登录记录按日期排序。
计算连续日期差：使用窗口函数LAG或LEAD来获取每个用户登录日期与前一条或后一条记录的日期差。
过滤连续登录记录：基于日期差判断连续性，保留满足连续登录条件的记录。
示例SQL
以下是一个使用LAG函数找出至少连续两天登录的用户的示例SQL。这里我们计算每个用户每天的登录与前一天的
登录间隔，并筛选出间隔为1天的记录，意味着连续登录。WITH login_dates AS (SELECT user_id, login_date, LAG(login_date, 1) OVER (PARTITION BY user_id ORDER BY login_date) as prev_login_dateFROM user_login_logs
)SELECT user_id, login_date, DATE_ADD(prev_login_date, 1) as expected_login_date
FROM login_dates
WHERE login_date = DATE_ADD(prev_login_date, 1)
ORDER BY user_id, login_date;注意事项
上述SQL只是基础示例，实际场景可能更复杂，比如需要考虑跨月连续登录的情况，或者需要找出最长连续登录序
列等。
如果要找出所有连续登录序列，可能需要更复杂的逻辑，比如使用自定义UDF（用户自定义函数）或者编写更复杂
的窗口函数逻辑。
考虑性能，对于大规模数据，上述查询可能较慢，可能需要进一步优化，比如通过预处理数据或使用更高效的计算
引擎。

Hive的开窗函数有哪些

Hive的开窗函数（也称为窗口函数或分析函数）主要用于在数据集的每个窗口上执行计算，这些窗口可以是整个
数据集，也可以是由PARTITION BY子句定义的每个分区。以下是Hive中常用的一些开窗函数：ROW_NUMBER() OVER()
功能：为窗口中的每一行分配一个唯一的序号。
特点：对相等的值不进行区分，相等的值对应的排名相同，序号从1到n连续。RANK() OVER()
功能：为窗口中的每一行提供一个排名。
特点：相等的值排名相同，但若有相等的值，则序号从1到n不连续。例如，如果有两个人都排在第三名，则没有第
四名。DENSE_RANK() OVER()
功能：为窗口中的每一行提供一个排名。
特点：对相等的值排名相同，但序号从1到n连续。例如，如果有两个人都排在第一名，则排在第二名的人是第三个
人。NTILE(n) OVER()
功能：将有序的数据集合平均分配到指定的n个桶中，将桶号分配给每一行。
特点：如果不能平均分配，则较小的桶分配额外的行，并且各个桶中能放的数据条数最多相等。PERCENT_RANK()
功能：计算排名百分比。
排名计算公式：（当前排名 - 1）/（分组内总行数 - 1）。CUME_DIST()
功能：计算小于或等于当前值的行数占总数的比例。
如果按照升序排列，则统计小于等于当前值的行数/总行数；如果是降序排列，则统计大于等于当前值的行数/总行数。LEAD(value_expr[, offset[, default]])
功能：用于统计窗口内往下第n行值。
第一个参数为列名，第二个参数为往下第n行（可选，默认为1），第三个参数为默认值（如果往下第n行为null时，取默认值）。LAG(value_expr[, offset[, default]])
功能：与LEAD相反，用于统计窗口内往上第n行值。
参数含义与LEAD相同，但方向相反。这些开窗函数在Hive中通常与OVER()子句一起使用，以指定窗口的定义，包括PARTITION BY子句（用于定义分区）和ORDER BY子句（用于定义窗口内的排序）。通过这些函数，可以在Hive中进行各种复杂的数据分析操作。

Hive存储数据吗

Hive 本身并不直接存储数据，而是对存储在 Hadoop 分布式文件系统（HDFS）或其他兼容的文件系统中的数据
进行管理和查询。Hive 提供了一种类似于 SQL 的查询语言（HiveQL），使用户能够方便地对大规模数据进行分析和处理。当用户
在 Hive 中创建表并定义表结构时，Hive 会将这些元数据信息进行存储和管理，但实际的数据仍然存放在底层
的文件系统中。例如，如果您在 Hive 中创建了一个表，并指定数据存储在 HDFS 中的某个路径，那么 Hive 会知道如何解析
和查询该路径下的数据，但数据本身是由 HDFS 负责存储和管理的。

引用：https://www.nowcoder.com/discuss/353159520220291072

通义千问、文心一言、豆包

大数据面试题之Hive(2)

目录 Hive的join操作原理，leftjoin、right join、inner join、outer join的异同? Hive如何优化join操作 Hive的mapjoin Hive语句的运行机制，例如包含where、having、group by、orderby，整个的执行过程? Hive使用的时候会将数据同步到HD…...

编程日记 2024/6/29 19:14:43

求推荐几款http可视化调试工具？

Postman 非常流行的API调试工具，适用于构建、测试和文档化APIs。它支持各种HTTP方法，有强大的集合和环境管理功能，以及代码生成能力。 BB-API 是一款旨在提升开发效率的工具，它专注于提供简约、完全免费且功能强大的HTTP模拟请…...

编程日记 2024/6/29 19:13:41

Python逻辑控制语句之判断语句--if else结构

1.if else 的介绍 if else ：如果 ... 否则 .... 2.if else 的语法 if 判断条件: 判断条件成立，执行的代码 else: 判断条件不成立，执行的代码 （1）else 是关键字, 后⾯需要冒号 （2）存在冒号…...

编程日记 2024/6/29 19:11:39

word2016中新建页面显示出来的页面没有页眉页脚，只显示正文部分。解决办法

问题描述：word2016中新建页面显示出来的页面没有页眉页脚，只显示正文部分。设置了页边距也不管用。如图1 图1 解决： 点击“视图”——“多页”——“单页”，即可。如图2操作图2 结果展示：如图3 图3...

编程日记 2024/6/29 19:10:38

8.javaSE基础进阶_泛型generics(无解通配符?+上下界统配符superextends)

文章目录泛型generics一.泛型简介二.泛型类1.泛型方法三.泛型接口四.泛型进阶1.*<?>无解通配符*2.上界通配符 < ? extends E>3.下界通配符 < ? super E>4.泛型擦除泛型generics 一.泛型简介 JDK5引入,一种安全机制,编译时检测不匹配类型特点: 将数…...

编程日记 2024/6/29 19:09:37

酒店客房管理系统（Java+MySQL）

技术栈 Java: 作为主要编程语言。Swing GUI: 用于开发图形用户界面。MySQL: 作为数据库管理系统。JDBC: 用于连接和操作MySQL数据库。功能要点管理登录认证系统提供管理员登录认证功能。通过用户名和密码验证身份，确保只有授权的用户可以访问和管理酒店客房信…...

编程日记 2024/6/29 19:07:35

S32K3 --- Wdg(内狗) Mcal配置

前言看门狗的作用是用来检测程序是否跑飞，进入死循环。我们需要不停地喂狗，来确保程序是正常运行的，一旦停止喂狗，意味着程序跑飞，超时后就会reset复位程序。一、Wdg 1.1 WdgGeneral Wdg Disable Allowed : 启用此参数后，允许在运行的时候禁用看门狗 Wdg Enable User…...

编程日记 2024/6/29 19:06:34

LeetCode 算法：二叉树的层序遍历 c++

原题链接🔗：二叉树的层序遍历难度：中等⭐️⭐️ 题目给你二叉树的根节点 root ，返回其节点值的层序遍历。 （即逐层地，从左到右访问所有节点）。示例 1： 输入：roo…...

编程日记 2024/6/29 19:04:31

博途TIA Portal「集成自动化软件」下载安装，TIA Portal 灵活多变的编程环境

在编程领域，博途TIA Portal以其卓越的编程工具和灵活多变的编程环境，为众多用户提供了前所未有的便利。这款软件不仅支持多种编程语言，如梯形图（Ladder Diagram）、功能块图（Function Block Diagram&#xf…...

编程日记 2024/6/29 19:02:29

火了10年的电脑监控软件有哪些？盘点8款热门的电脑监控软件

电脑监控软件领域经历了多年的发展，一些软件因为其稳定的功能、良好的用户体验和不断更新的技术支持，得以在市场上保持长期的热度和用户基础。以下是几款在过去十年里广受好评且持续流行的内网监控软件： 1.安企神：由河北安企神网络…...

编程日记 2024/6/29 19:01:28

入门Java爬虫：认识其基本概念和应用方法

Java爬虫初探：了解它的基本概念与用途，需要具体代码示例随着互联网的快速发展，获取并处理大量的数据成为企业和个人不可或缺的一项任务。而爬虫（Web Scraping）作为一种自动化的数据获取方法，不仅能够快速…...

编程日记 2024/6/29 19:00:27

Flask新手入门（一）

前言 Flask是一个用Python编写的轻量级Web应用框架。它最初由Armin Ronacher作为Werkzeug的一个子项目在2010年开发出来。Werkzeug是一个综合工具包，提供了各种用于Web应用开发的工具和函数。自发布以来，Flask因其简洁和灵活性而迅速受到开发者的欢迎。…...

编程日记 2024/6/29 18:57:23

Grafana-11.0.0 在线部署教程

Grafana-11.0.0 在线部署教程环境： 操作系统： ubuntugrafana版本： 11.0.0 （建议不要按照最新版）grafana要求的系统配置不高，建议直接部署在监控服务器上，比如zabbix服务器、prometheus服务器…...

编程日记 2024/6/29 18:55:21

加载mnist数据集 one-hot编码实现 import numpy as np import torch x_train np.load("../dataset/mnist/x_train.npy") # 从网站提前下载数据集，并解压缩 y_train_label np.load("../dataset/mnist/y_train_label.npy") x torch.tensor(y…...

编程日记 2024/6/29 18:54:20

梦想CAD二次开发

1.mxdraw简介 mxdraw是一个HTML5 Canvas JavaScript框架，它在THREE.js的基础上扩展开发，为用户提供了一套在前端绘图更为方便，快捷，高效率的解决方案，mxdraw的实质为一个前端二维绘图平台。你可以使用mxdraw在画布上绘…...

编程日记 2024/6/29 18:52:18

Eureka的介绍与使用

Eureka 是 Netflix 开源的一款服务注册与发现组件，在微服务架构中扮演着重要的角色。一、Eureka 的介绍工作原理服务注册：各个微服务在启动时，会向 Eureka Server 发送注册请求，将自身的服务名、实例名、IP 地址、端口等信息注…...

编程日记 2024/6/29 18:51:17

ChatGPT之母：AI自动化将取代人类，创意性工作或将消失

目录 01 AI取代创意性工作的担忧 1.1 CTO说了啥 02 AI已开始大范围取代人类 01 AI取代创意性工作的担忧几天前的采访中，OpenAI的CTO直言，AI可能会扼杀一些本来不应该存在的创意性工作。近来一篇报道更是印证了这一观点。国外科技媒体的老板Miller用…...

编程日记 2024/6/29 18:49:15

【深度学习驱动流体力学】湍流仿真到深度学习湍流预测

目录一、湍流项目结构二、三个OpenFOAM湍流算例1. motorBike背景和目的文件结构和关键文件使用和应用湍流仿真深度学习湍流预测深度学习湍流预测的挑战和应用结合湍流仿真与深度学习2. pitzDaily背景和目的文件结构和关键文件使用和应用3. pitzDailyMapped背景和目的文件结构和…...

编程日记 2024/6/29 18:47:13

如何从0构建一款类似pytest的工具

Pytest主要模块 Pytest 是一个强大且灵活的测试框架，它通过一系列步骤来发现和运行测试。其核心工作原理包括以下几个方面：测试发现：Pytest 会遍历指定目录下的所有文件，找到以 test_ 开头或 _test.py 结尾的文件，并且…...

编程日记 2024/6/29 18:46:12

6.27-6.29 旧c语言

#include<stdio.h> struct stu {int num;float score;struct stu *next; }; void main() {struct stu a,b,c,*head;//静态链表a.num 1;a.score 10;b.num 2;b.score 20;c.num 3;c.score 30;head &a;a.next &b;b.next &c;do{printf("%d,%5.1f\n&…...

编程日记 2024/6/29 18:44:10

像素剧本圣殿企业应用：中小型内容工作室剧本量产工作流搭建

像素剧本圣殿企业应用：中小型内容工作室剧本量产工作流搭建 1. 剧本创作新范式在内容创作行业，剧本开发一直是耗时费力的核心环节。传统编剧流程中，一个完整剧本从构思到成稿往往需要数周甚至数月时间，这对于资源有限的中小型工…...

编程新知 2026/4/2 11:22:39

Qwen3.5-2B多场景案例：法律文书图识别+法条关联+类案推荐三合一系统

Qwen3.5-2B多场景案例：法律文书图识别法条关联类案推荐三合一系统 1. 轻量化多模态模型介绍 Qwen3.5-2B是Qwen3.5系列中的轻量化版本，仅有20亿参数规模，专为低功耗、低门槛部署场景设计。这款模型特别适合部署在端侧和边缘设备上&#xff0…...

编程新知 2026/4/2 11:20:33

从DWG到GIS地图：手把手教你用Java提取坐标并导入PostgreSQL/PostGIS

从DWG到GIS地图：Java全链路坐标处理与PostGIS集成实战在建筑信息模型（BIM）与地理信息系统（GIS）融合的大趋势下，DWG图纸中的几何数据正成为智慧城市建设的核心资产。作为长期从事空间数据处理的开发者&…...

编程新知 2026/4/2 10:01:47

Llama-3.2V-11B-cot算法解析实战：图解卷积神经网络核心原理

Llama-3.2V-11B-cot算法解析实战：图解卷积神经网络核心原理你是不是经常听到“卷积神经网络”这个词，感觉它既神秘又强大，但一看到那些复杂的数学公式和网络结构图就头疼？别担心，今天咱们就换个方式，用大…...

编程新知 2026/4/2 9:35:14

MCP 实现深度技术报告

1. MCP 协议概述与架构定位 1.1 协议背景 Model Context Protocol (MCP) 是 Anthropic 推出的开放标准协议，旨在标准化 AI 助手与外部数据源、工具之间的集成方式。在 Claude Code 中，MCP 不仅是外部集成接口，更是核心架构组件，…...

编程新知 2026/4/2 8:07:49

中小企业AI落地：Qwen3-4B-Instruct-2507轻量部署实战

中小企业AI落地：Qwen3-4B-Instruct-2507轻量部署实战中小企业想用上大模型，常被几个现实问题卡住：显存不够、部署太重、运维不会、成本太高。Qwen3-4B-Instruct-2507这个模型，就是为这类场景量身打磨的——它不追求参数堆砌&…...

编程新知 2026/4/2 7:37:16

手柄不兼容PC游戏？试试ViGEmBus的虚拟控制器仿真技术

手柄不兼容PC游戏？试试ViGEmBus的虚拟控制器仿真技术【免费下载链接】ViGEmBus Windows kernel-mode driver emulating well-known USB game controllers. 项目地址: https://gitcode.com/gh_mirrors/vi/ViGEmBus 你是否遇到过这样的情况：新买的…...

编程新知 2026/4/2 7:35:15

大模型预训练中的损失函数：从交叉熵到代码实现的全方位解析

大模型预训练中的损失函数：从交叉熵到代码实现的全方位解析在深度学习领域，大语言模型的崛起彻底改变了自然语言处理的格局。这些庞然大物的核心驱动力之一，正是预训练阶段精心设计的损失函数。对于decoder-only架构的模型而言，交…...

编程新知 2026/4/2 5:54:02

Pixel Aurora Engine实战应用：像素游戏道具图标（武器/药水/装备）批量生成

Pixel Aurora Engine实战应用：像素游戏道具图标（武器/药水/装备）批量生成 1. 像素游戏道具生成的痛点与解决方案独立游戏开发者经常面临一个共同挑战：如何高效制作大量风格统一的像素艺术道具图标。传统手工绘制方式存在三个主…...

编程新知 2026/4/2 5:19:46

101. 如何通过 Rancher Manager 收集指标

Environment 环境 Rancher 2.10 牧场主 2.10 Procedure 程序Rancher support might ask you to collect the Prometheus metrics for the cattle-cluster-agent. 牧场主支持可能会让你收集牛群集群代理的普罗米修斯指标。 They are available through the Rancher local clu…...

编程新知 2026/4/2 3:29:57

Hive的join操作原理，leftjoin、right join、inner join、outer join的异同?

Hive如何优化join操作

Hive的mapjoin

Hive语句的运行机制，例如包含where、having、group by、orderby，整个的执行过程?

Hive使用的时候会将数据同步到HDFS，小文件问题怎么解决的?

Hive Shuffle的具体过程

Hive有哪些保存元数据的方式，都有什么特点?

Hive SOL实现查询用户连续登陆，讲讲思路

Hive的开窗函数有哪些

Hive存储数据吗

相关文章：