当前位置：首页 > news >正文

cmu 445 poject 3笔记

news 2026/5/21 9:30:07

2022年的任务 https://15445.courses.cs.cmu.edu/fall2022/project3/
task1, 从磁盘读取数据的算子
task2, 聚合和join算子
task3, sort,limit,topn算子，以及sort+limit->TopN优化
leaderboard没做
本文不写代码，只记录遇到的一些思维盲点

Task1

scan

比较简单，参考filter算子的实现即可。

insert和delete

需要根据index对象的keyAttr来将原始的tuple转换为index的entry。
类似下面这样

    for (auto it : indexs) {auto key_attrs = (it)->index_->GetKeyAttrs();std::vector<Value> index_cols(key_attrs.size());size_t i = 0;for (auto col_idx : key_attrs) {index_cols[i++] = (child_tuple.GetValue(&child_executor_->GetOutputSchema(), col_idx));}(it)->index_->DeleteEntry(Tuple(index_cols, (it)->index_->GetKeySchema()), child_rid,exec_ctx_->GetTransaction());}

Task 2

Aggregate聚合算子

补充hash表的计算函数CombineAggregateValues，这个比较简单，就是根据不同的算子做对应处理即可。
1. 需要判断下input的结果是为空，对于count（*）算子，会累加一行，其他的算子都不处理
对于计算，需要先执行构建操作，后续调用聚合算子的next时结果都是从构建的结果里取
需要特别注意的是，如果是个空表，并且没有group by操作，也是需要返回结果的

第二步大概代码如下

while (true) {auto status = child_->Next(&child_tuple, &child_rid);if (!status) {first_next_ = true;break;}keys.group_bys_.clear();for (const auto &expr : key_exprs) {keys.group_bys_.emplace_back(expr->Evaluate(&child_tuple, child_->GetOutputSchema()));}vals.aggregates_.clear();for (const auto &expr : val_exprs) {vals.aggregates_.emplace_back(expr->Evaluate(&child_tuple, child_->GetOutputSchema()));}aht_.InsertCombine(keys, vals);}

第三步大概代码如下

 aht_iterator_ = aht_.Begin();if (aht_iterator_ == aht_.End()) {// empty tableif (key_exprs.empty()) {vals.aggregates_.clear();for (uint32_t i = 0; i < plan_->agg_types_.size(); i++) {vals.aggregates_.emplace_back(ValueFactory::GetNullValueByType(TypeId::BIGINT));}aht_.InsertCombine(keys, vals);aht_iterator_ = aht_.Begin();std::vector<Value> cols;cols.insert(cols.end(), aht_iterator_.Val().aggregates_.begin(), aht_iterator_.Val().aggregates_.end());++aht_iterator_;*tuple = {cols, &GetOutputSchema()};return true;}}

Join算子

也是分为构建阶段和取数据阶段。
构建阶段，主要是把右表（内表）的数据读到一个数组里，用于后续跟左表（外表）的元素进行匹配。
取数据阶段就是读取左表的数据，然后去上面的数组里一行一行匹配。

需要注意的是，一行左表的数据，可能会对应多行右表的数据，因此需要遍历整个数组才行。

我的做法是记录一个右表的游标和一个左表的当前记录
每次取出左表的数据后，这个游标清零，从头开始匹配右表数据。匹配成功就返回
下次取数据时，判断这个游标是否到右表的尾部了，如果不是，那就继续匹配。
直到尾部后，再拉取一个左表的数据，从头开始匹配。

Task3

sort 算子

主要是排序算法的实现，需要判断下null的位置。
对于升序，null是最小的。对于降序，null是最大的。

auto comp = [&](Tuple &a, Tuple &b) -> bool {for (const auto &order : orders) {auto left = order.second->Evaluate(&a, GetOutputSchema());auto right = order.second->Evaluate(&b, GetOutputSchema());bool ret = true;if (left.IsNull()) {if (order.first == OrderByType::DESC) {ret = false;}} else if (right.IsNull()) {if (order.first != OrderByType::DESC) {ret = false;}} else {auto val = left.CompareEquals(right);if (val == CmpBool::CmpTrue) {continue;}val = left.CompareLessThan(right);if (val == CmpBool::CmpTrue) {if (order.first == OrderByType::DESC) {ret = false;}} else {if (order.first != OrderByType::DESC) {ret = false;}}}return ret;}return true;};

TopN算子

对于topN算子，使用堆来存limit个元素。
如果是降序的，就构建最小堆。这样，每次淘汰都是淘汰最小的值，最后堆里保存的是最大的limit个元素。
同理，如果是升序的，就构建最大堆。这样，每次淘汰的都是淘汰最大的值，最后堆里保存的是最小的limit个元素。

std的priority_queue默认是最大堆，因此比较函数就按正常的排序规则就行（同sort的比较方式），它自动的反转构建堆。对于升序，就会构建最大堆；对于降序，就会构建最小堆
因为堆里的数据实际上跟最终的结果是相反的，因此在构建阶段，需要把堆里的数据取出来放到一个vector中，取的时候，从尾部到头部取出就行

sort+limit->TopN

需要递归处理，先处理子算子，然后再处理本节点。

std::vector<AbstractPlanNodeRef> new_child;for (size_t i = 0; i < plan->GetChildren().size(); ++i) {new_child.emplace_back(OptimizeSortLimitAsTopN(plan->children_[i]));}if (plan->GetType() == PlanType::Limit) {if (plan->GetChildren().size() == 1 && new_child[0]->GetType() == PlanType::Sort) {auto sort = std::dynamic_pointer_cast<const SortPlanNode>(new_child[0]);auto limit = dynamic_cast<const LimitPlanNode *>(plan.get());SchemaRef schema = std::make_shared<const Schema>(plan->OutputSchema().GetColumns());auto ret = std::make_shared<TopNPlanNode>(schema, (new_child[0]->GetChildAt(0)), (sort)->GetOrderBy(),limit->GetLimit());return ret;}}return plan->CloneWithChildren(new_child);

cmu 445 poject 3笔记

2022年的任务 https://15445.courses.cs.cmu.edu/fall2022/project3/ task1, 从磁盘读取数据的算子 task2, 聚合和join算子 task3, sort,limit,topn算子，以及sortlimit->TopN优化 leaderboard没做本文不写代码，只记录遇到的一些思维盲点 Task1 scan…...

编程日记 2023/2/16 9:05:15

CHAPTER 2 Zabbix界面操作

Zabbix界面操作2.1 Zabbix界面操作1.zabbix的web界面安装2.添加监控信息3.查看监控内容4.查看图像2.2 自定义监控与监控报警1.自定义监控1.1 说明1.2 预备知识2.实现自定义监控2.1 自定义语法2.2 agent注册2.3 在server端注册(web操作)2.4 查看监控图形2.3 监控报警1.第三方报警…...

编程日记 2023/2/16 9:04:05

keep-alive的使用-及遇到的问题

被keep-alive包括的的组件，当组件切换是不是走销毁流程，而是缓存起来 keep-alive有三个参数include匹配name名被缓存，exclude匹配name名不会被缓存，max被缓存组件数量不写，组件默认全部缓存 <keep-alive ><…...

编程日记 2023/2/16 9:02:57

华为OD面试经验分享，尤其注意机试题部分

文章目录招聘流程和背景介绍面试准备机试题目类型和解答技巧在算法部分在操作系统部分面试官提问和答题技巧面试总结和建议推荐一些华为 od 常见的机试题题目：两数之和题目：二叉树的遍历题目：链表反转题目：最大子序和招聘流程和背…...

编程日记 2023/2/16 9:01:50

【Java】String、StringBuffer、StringBuilder的区别

一、String 由 char[] 数组构成，使用了 final 修饰，String的值是不可变的，这就导致每次对String的操作都会生成新的String对象，然后把指针指向新的引用对象，不仅效率低下，而且浪费大量优先的内存空间。二…...

编程日记 2023/2/16 9:00:42

iOS开发：对Block使用的一次研究总结

在开发中Block是经常使用的，那我们就得知其然，知其所以然。 Block是什么？ Block可以封装一个匿名函数为对象，并捕获上下文所需的数据，并传给目标对象在适当的时候回调。我们使用Block的目的其实就是回调传值，那我们去看看Block的底层，再深入了解一下Block。 Block的底…...

编程日记 2023/2/16 8:59:30

Spark 3.1.1 shuffle fetch 导致shuffle错位的问题

背景最近从数据仓库小组那边反馈了一个问题,一个SQL任务出来的结果不正确，重新运行一次之后就没问题了，具体的SQL如下： select col1,count(1) as cnt from table1 where dt 20230202 group by col1 having count(1) > 1这个问题是偶发…...

编程日记 2023/2/16 8:58:21

2月第2周榜单丨飞瓜数据B站UP主排行榜（哔哩哔哩平台）发布！

飞瓜轻数发布2023年2月6日-2月12日飞瓜数据UP主排行榜（B站平台），通过充电数、涨粉数、成长指数三个维度来体现UP主账号成长的情况，为用户提供B站号综合价值的数据参考，根据UP主成长情况用户能够快速找到运营能力强的B站…...

编程日记 2023/2/16 8:57:13

Jdk19 动态编译 Java源码为 Class 文件

动态编译 Java 源码为 Class一.背景1.Jdk 版本2.需求二.Java 源码动态编译实现1.Maven 依赖2.源码包装类3.Java 文件对象封装类4.文件管理器封装类5.类加载器6.类编译器三.动态编译测试1.普通测试类2.接口实现类3.测试四.用动态编译 Class 替换 SpringBoot 的 Bean（…...

编程日记 2023/2/16 8:56:02

安装 GPU 版本的 tensorflow 完整版本

前言： 之前安装的 CPU 版本的 tensorflow 一直出问题，索性就直接安装 GPU 版本的 tensorflow 了（有了GPU 就不能浪费）。安装过程： 1）看自己有无 GPU，找到对应 GPU 的版本：任务管理…...

编程日记 2023/2/16 8:54:55

BOM编程-设置地址栏上的URL

<!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>设置地址栏上的URL</title> </head> <body> <script> function go(){ // 获…...

编程日记 2023/2/16 8:53:47

设计模式之原型模式与建造者模式详解和应用

目录1 原型模式1.1 原型模式定义1.2 原型模式的应用场景1.3 原型模式的通用写法（浅拷贝）1.4 使用序列化实现深度克隆1.5 克隆破坏单例模式1.6 原型模式在源码中的应用1.7 原型模式的优缺点1.8 总结2 建造者模式2.1 建造者模式定义2.2 建造者模式的应用场…...

编程日记 2023/2/16 8:52:34

C语言（函数和递归）

函数是完成特定任务的独立程序代码单元。目录一.函数 1.创建一个简单的函数 2.定义带形式参数的函数 3.使用return从函数中返回值二.递归一.函数 1.创建一个简单的函数 #include <stdio.h> void print(void); //函数原型 int main(){ print(); //函…...

编程日记 2023/2/16 8:51:27

快乐的shell命令行

快乐的shell命令行 PART1——基础 1.权限 #超级用户权限$普通用户 2.复制粘贴复制：鼠标左键沿着文本拖动高亮的文本被复制到X管理的缓冲区（或者双击一个单词）粘贴：鼠标中键 3.简单命令时间和日期date当前月份的日历cal磁…...

编程日记 2023/2/16 8:50:18

大数据面试题flume篇

1.Flume 的Source，Sink，Channel 的作用？你们Source 是什么类型？ 1. 作用 （1）Source组件是专门用来收集数据的，可以处理各种类型、各种格式的日志数据，包括 avro、thrift、exec、jm…...

编程日记 2023/2/16 8:49:07

零信任-深信服零信任aTrust介绍(5)

深信服零信任aTrust介绍深信服是国内领先的互联网信任服务提供商，也是国内首家通过认证的全球信任服务商。深信服零信任是其中一项核心的信任技术，主要针对身份认证、数字签名、数字证书等方面的信任问题。深信服零信任提供了一种新的安全保护模式…...

编程日记 2023/2/16 8:47:58

UVa 1343 The Rotation Game 旋转游戏 IDA* BFS 路径还原

题目链接：The Rotation Game 题目描述： 给定二十四个整数，这二十四个整数由八个一，八个二，八个三组成，从左到右，从上到下依次描述下图方格中的数字： 例如上图左边对应的输入就是[1,…...

编程日记 2023/2/16 8:46:49

硬件学习软件Cadence day02 画原理图的基本操作（键盘快捷键，原理图设计流程，从开始到导出网表流程）

1. ORCAD Capture cls 界面的快捷键键盘按键对应的操作I放大 （可以滚轮操作）O缩小 （可以滚轮操作）W画线Esc退出现在的状态 （画图界面右键 End xxx）N放置网络标号J放置节点 (控制…...

编程日记 2023/2/16 8:45:41

【python】基于Socket的聊天室Python开发

基于Socket的聊天室Python开发一、Socket简述二、创建服务端Server2.1 创建服务端初始化2.2 监听客户端连接2.3 处理客户端消息三、创建客户端Client3.1 创建服务端初始化3.2 发送消息3.3 接收消息3.3 线程工作3.4 线程工作是不是挺好玩的呢？也可以作为课程设计哦&a…...

编程日记 2023/2/16 8:44:35

2023想转行软件测试的看过来，你想要了解的薪资、前景、岗位方向、学习路线都讲明白了

在过去的一年中，软件测试行业发展迅速，随着数字化技术应用的广泛普及，业界对于软件测试的要求也在持续迭代与增加。同样的，有市场就有需求，软件测试逐渐成为企业中不可或缺的岗位，作为一个高薪又需求广的…...

编程日记 2023/2/16 8:43:30

Node.js 流处理：高效处理大数据的艺术

Node.js 流处理：高效处理大数据的艺术什么是流？ 在 Node.js 中，流（Stream）是处理大量数据的抽象接口。它允许我们逐块读取或写入数据，而不需要一次性将全部数据加载到内存中。为什么需要流？ 想…...

编程新知 2026/5/21 8:33:06

告别Wi-Fi卡顿！手把手教你读懂802.11ax的BSR机制，优化家庭网络上行体验

告别Wi-Fi卡顿！手把手教你读懂802.11ax的BSR机制，优化家庭网络上行体验你是否经历过这样的场景：视频会议时画面突然卡成马赛克，游戏团战时操作延迟飙升，或是上传文件进度条像蜗牛爬行？这些恼人的问题往往源…...

编程新知 2026/5/21 8:30:51

用C语言搞定PTA数据结构7-1天梯地图：迪杰斯特拉算法实战与避坑指南

从零实现PTA天梯地图：双权重迪杰斯特拉算法全解析当面对PTA数据结构7-1天梯地图这类双权重图的最短路径问题时，许多初学者会陷入算法选择的困境。本文将彻底拆解如何用C语言实现这一经典题目，不仅教你写出能AC的代码，更重要的是掌…...

编程新知 2026/5/21 8:14:03

RK3588+ZYNQ+ROS2 机器人 “强实时控制 + AI 感知 + 边缘计算” 三位一体核心控制器

一、方案总览：为什么是 RK3588ZYNQ7045（国产替代用复旦微 FMQL45T900）RK3588（8nm，瑞芯微）：主 AI 业务中枢，6TOPS NPU、8 核 CPU（4A764A55）、8K 编解码、丰富…...

编程新知 2026/5/21 6:51:49

别再手动拖拽了！Unity运行时动态生成材质球，实现AR涂鸦功能的完整流程（附代码）

Unity运行时动态材质生成：打造高性能AR涂鸦系统的核心技术解析在移动AR应用开发中，实时材质生成技术正成为提升用户体验的关键突破点。想象这样一个场景：儿童教育应用中，孩子随手绘制的涂鸦瞬间变成3D恐龙皮肤的纹理；…...

编程新知 2026/5/21 5:37:30

【从零学Vibe Coding】第一章：Vibe Coding 到底是什么？

第一章：Vibe Coding 到底是什么？ 先说结论 Vibe Coding 不是"不写代码"，而是"先用自然语言描述意图，再让 AI 生成代码，人类负责判断、修正和推进结果"。这个词在 2025 年突然出圈，不…...

编程新知 2026/5/21 3:48:25

RT-Thread Studio开发RA2L1：从环境搭建到GPIO输入输出实战

1. 项目概述与核心价值最近在捣鼓瑞萨电子的RA2L1 MCU开发板，想基于RT-Thread Studio这个国产IDE快速上手。我发现很多朋友拿到一块新板子，第一步“点亮LED”或者“读取按键”这个看似简单的操作，往往就卡在了环境搭建上。网上的资料要么过于…...

编程新知 2026/5/21 2:42:40

半波整流电路：从原理到实践，掌握AC-DC转换基础

1. 项目概述：从交流到直流的第一步在电子电路的世界里，我们常常需要将交流电（AC）转换为直流电（DC），这个过程我们称之为“整流”。而半波整流电路，可以说是所有整流电路中最基础、最经…...

编程新知 2026/5/21 2:15:26

整合Taotoken多模型能力为智能客服场景提供备选方案

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度整合Taotoken多模型能力为智能客服场景提供备选方案在构建智能客服系统的过程中，产品经理和工程师常常面临一个核心挑…...

编程新知 2026/5/21 2:00:37

8351健康管理中心用黑科技设备为企业家筑起生命防线

事业的成功固然值得骄傲，但如果没有健康作为根基，一切的辉煌都显得摇摇欲坠。对于每天在高压下决策、在商海中搏击的企业家而言，健康早已不是一句简单的口号，而是一场需要长期投入的战略投资。然而现实往往是，很多企业…...

编程新知 2026/5/21 1:34:04