当前位置：首页 > news >正文

Flink学习连载第二篇-使用flink编写WordCount(多种情况演示)

news 文章来源：https://blog.csdn.net/wozhendeyumenle/article/details/143938943 2025/4/22 8:43:20

使用Flink编写代码，步骤非常固定，大概分为以下几步，只要牢牢抓住步骤，基本轻松拿下：

1. env-准备环境

2. source-加载数据

3. transformation-数据处理转换

4. sink-数据输出

5. execute-执行

DataStream API开发

//nightlies.apache.org/flink/flink-docs-release-1.13/docs/dev/datastream/overview/

0. 添加依赖

<properties><flink.version>1.13.6</flink.version>
</properties><dependencies><dependency><groupId>org.apache.flink</groupId><artifactId>flink-streaming-java_2.11</artifactId><version>${flink.version}</version></dependency><dependency><groupId>org.apache.flink</groupId><artifactId>flink-java</artifactId><version>${flink.version}</version></dependency><dependency><groupId>org.apache.flink</groupId><artifactId>flink-clients_2.11</artifactId><version>${flink.version}</version></dependency><dependency><groupId>org.apache.flink</groupId><artifactId>flink-table-api-java-bridge_2.11</artifactId><version>${flink.version}</version></dependency><dependency><groupId>org.apache.flink</groupId><artifactId>flink-table-planner-blink_2.11</artifactId><version>${flink.version}</version></dependency><dependency><groupId>org.apache.flink</groupId><artifactId>flink-shaded-hadoop-2-uber</artifactId><version>2.7.5-10.0</version></dependency><dependency><groupId>log4j</groupId><artifactId>log4j</artifactId><version>1.2.17</version></dependency><dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><version>1.18.24</version></dependency></dependencies><build><extensions><extension><groupId>org.apache.maven.wagon</groupId><artifactId>wagon-ssh</artifactId><version>2.8</version></extension></extensions><plugins><plugin><groupId>org.codehaus.mojo</groupId><artifactId>wagon-maven-plugin</artifactId><version>1.0</version><configuration><!--上传的本地jar的位置--><fromFile>target/${project.build.finalName}.jar</fromFile><!--远程拷贝的地址--><url>scp://root:root@bigdata01:/opt/app</url></configuration></plugin></plugins></build>

编写代码

package com.bigdata.day01;import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;public class WordCount01 {/*** 1. env-准备环境* 2. source-加载数据* 3. transformation-数据处理转换* 4. sink-数据输出* 5. execute-执行*/public static void main(String[] args) throws Exception {// 导入常用类时要注意   不管是在本地开发运行还是在集群上运行，都这么写，非常方便StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 这个是 自动 ，根据流的性质，决定是批处理还是流处理//env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);// 批处理流， 一口气把数据算出来// env.setRuntimeMode(RuntimeExecutionMode.BATCH);// 流处理，默认是这个  可以通过打印批和流的处理结果，体会流和批的含义env.setRuntimeMode(RuntimeExecutionMode.STREAMING);// 获取数据  多态的写法 DataStreamSource 它是 DataStream 的子类DataStream<String> dataStream01 = env.fromElements("spark flink kafka", "spark sqoop flink", "kakfa hadoop flink");DataStream<String> flatMapStream = dataStream01.flatMap(new FlatMapFunction<String, String>() {@Overridepublic void flatMap(String line, Collector<String> collector) throws Exception {String[] arr = line.split(" ");for (String word : arr) {// 循环遍历每一个切割完的数据，放入到收集器中，就可以形成一个新的DataStreamcollector.collect(word);}}});//flatMapStream.print();// Tuple2 指的是2元组DataStream<Tuple2<String, Integer>> mapStream = flatMapStream.map(new MapFunction<String, Tuple2<String, Integer>>() {@Overridepublic Tuple2<String, Integer> map(String word) throws Exception {return Tuple2.of(word, 1); // ("hello",1)}});DataStream<Tuple2<String, Integer>> sumResult = mapStream.keyBy(new KeySelector<Tuple2<String, Integer>, String>() {@Overridepublic String getKey(Tuple2<String, Integer> tuple2) throws Exception {return tuple2.f0;}// 此处的1 指的是元组的第二个元素，进行相加的意思}).sum(1);sumResult.print();// 执行env.execute();}
}

查看本机的CPU的逻辑处理器的数量，逻辑处理器的数量就是你的分区数量。

12> spark
13> kakfa
11> spark
11> flink
11> kafka
13> hadoop
12> sqoop
13> flink
12> flink前面的数字是分区数，默认跟逻辑处理器的数量有关系。

对结果进行解释：

什么是批，什么是流？

批处理结果：前面的序号代表分区

流处理结果：

也可以通过如下方式修改分区数量：

 env.setParallelism(2);

关于并行度的代码演示：

系统以及算子都可以设置并行度，或者获取并行度

package com.bigdata.day01;import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;public class WordCount01 {/*** 1. env-准备环境* 2. source-加载数据* 3. transformation-数据处理转换* 4. sink-数据输出* 5. execute-执行*/public static void main(String[] args) throws Exception {// 导入常用类时要注意   不管是在本地开发运行还是在集群上运行，都这么写，非常方便StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 这个是 自动 ，根据流的性质，决定是批处理还是流处理//env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);// 批处理流， 一口气把数据算出来// env.setRuntimeMode(RuntimeExecutionMode.BATCH);// 流处理，默认是这个  可以通过打印批和流的处理结果，体会流和批的含义env.setRuntimeMode(RuntimeExecutionMode.STREAMING);// 将任务的并行度设置为2// env.setParallelism(2);// 通过这个获取系统的并行度int parallelism = env.getParallelism();System.out.println(parallelism);// 获取数据  多态的写法 DataStreamSource 它是 DataStream 的子类DataStream<String> dataStream01 = env.fromElements("spark flink kafka", "spark sqoop flink", "kakfa hadoop flink");DataStream<String> flatMapStream = dataStream01.flatMap(new FlatMapFunction<String, String>() {@Overridepublic void flatMap(String line, Collector<String> collector) throws Exception {String[] arr = line.split(" ");for (String word : arr) {// 循环遍历每一个切割完的数据，放入到收集器中，就可以形成一个新的DataStreamcollector.collect(word);}}});// 每一个算子也有自己的并行度，一般跟系统保持一致System.out.println("flatMap的并行度："+flatMapStream.getParallelism());//flatMapStream.print();// Tuple2 指的是2元组DataStream<Tuple2<String, Integer>> mapStream = flatMapStream.map(new MapFunction<String, Tuple2<String, Integer>>() {@Overridepublic Tuple2<String, Integer> map(String word) throws Exception {return Tuple2.of(word, 1); // ("hello",1)}});DataStream<Tuple2<String, Integer>> sumResult = mapStream.keyBy(new KeySelector<Tuple2<String, Integer>, String>() {@Overridepublic String getKey(Tuple2<String, Integer> tuple2) throws Exception {return tuple2.f0;}// 此处的1 指的是元组的第二个元组，进行相加的意思}).sum(1);sumResult.print();// 执行env.execute();}
}

打包、上传

文件夹不需要提前准备好，它可以帮我创建

提交我们自己开发打包的任务

flink run -c com.bigdata.day01.WordCount01 /opt/app/FlinkDemo-1.0-SNAPSHOT.jar

去界面中查看运行结果：

因为你这个是集群运行的，所以标准输出流中查看，假如第一台没有，去第二台查看，一直点。

获取主函数参数工具类

可以通过外部传参的方式给定一个路径

以下代码可以做到，假如给定路径，就获取路径的数据，假如没给，就读取默认数据：

package com.bigdata.day01;import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;public class WordCount02 {/*** 1. env-准备环境* 2. source-加载数据* 3. transformation-数据处理转换* 4. sink-数据输出* 5. execute-执行*/public static void main(String[] args) throws Exception {// 导入常用类时要注意   不管是在本地开发运行还是在集群上运行，都这么写，非常方便StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 这个是 自动 ，根据流的性质，决定是批处理还是流处理//env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);// 批处理流， 一口气把数据算出来// env.setRuntimeMode(RuntimeExecutionMode.BATCH);// 流处理，默认是这个  可以通过打印批和流的处理结果，体会流和批的含义env.setRuntimeMode(RuntimeExecutionMode.STREAMING);// 将任务的并行度设置为2// env.setParallelism(2);// 通过这个获取系统的并行度int parallelism = env.getParallelism();System.out.println(parallelism);// 获取数据  多态的写法 DataStreamSource 它是 DataStream 的子类// 连着写的本质就是 因为每一个算子的返回值都是DataStream的子类，所以可以这么写// 以下代码中路径是写死的，能不能通过外部传参进来，当然可以！ agrsDataStream<String> dataStream = null;System.out.println(args.length);if(args.length !=0){String path = args[0];dataStream =  env.readTextFile(path);}else{dataStream =  env.fromElements("spark flink kafka", "spark sqoop flink", "kakfa hadoop flink");}dataStream.flatMap(new FlatMapFunction<String, String>() {@Overridepublic void flatMap(String line, Collector<String> collector) throws Exception {String[] arr = line.split(" ");for (String word : arr) {// 循环遍历每一个切割完的数据，放入到收集器中，就可以形成一个新的DataStreamcollector.collect(word);}}}).map(new MapFunction<String, Tuple2<String, Integer>>() {@Overridepublic Tuple2<String, Integer> map(String word) throws Exception {return Tuple2.of(word, 1); // ("hello",1)}}).keyBy(new KeySelector<Tuple2<String, Integer>, String>() {@Overridepublic String getKey(Tuple2<String, Integer> tuple2) throws Exception {return tuple2.f0;}// 此处的1 指的是元组的第二个元组，进行相加的意思}).sum(1).print();// 执行env.execute();}
}

flink run -c com.bigdata.day01.Demo02 FlinkDemo-1.0-SNAPSHOT.jar /home/wc.txt

这样做，跟我们以前的做法还是不一样。以前的运行方式是这样的

flink run /opt/installs/flink/examples/batch/WordCount.jar --input /home/wc.txt

这个写法，传递参数的时候，带有--字样，而我们的没有。

以上代码进行升级，我想将参数前面追加一个 --input 这样，怎么写？

ParameterTool parameterTool = ParameterTool.fromArgs(args);
if(parameterTool.has("output")){path = parameterTool.get("output");
}在代码中的使用：
ParameterTool parameterTool = ParameterTool.fromArgs(args);String output = "";if (parameterTool.has("output")) {output = parameterTool.get("output");System.out.println("指定了输出路径使用:" + output);} else {output = "hdfs://node01:9820/wordcount/output47_";System.out.println("可以指定输出路径使用 --output ,没有指定使用默认的:" + output);}

升级过的代码：

package com.bigdata.day01;import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;public class WordCount02 {/*** 1. env-准备环境* 2. source-加载数据* 3. transformation-数据处理转换* 4. sink-数据输出* 5. execute-执行*/public static void main(String[] args) throws Exception {// 导入常用类时要注意   不管是在本地开发运行还是在集群上运行，都这么写，非常方便StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 这个是 自动 ，根据流的性质，决定是批处理还是流处理//env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);// 批处理流， 一口气把数据算出来// env.setRuntimeMode(RuntimeExecutionMode.BATCH);// 流处理，默认是这个  可以通过打印批和流的处理结果，体会流和批的含义env.setRuntimeMode(RuntimeExecutionMode.STREAMING);// 将任务的并行度设置为2// env.setParallelism(2);// 通过这个获取系统的并行度int parallelism = env.getParallelism();System.out.println(parallelism);// 获取数据  多态的写法 DataStreamSource 它是 DataStream 的子类// 连着写的本质就是 因为每一个算子的返回值都是DataStream的子类，所以可以这么写// 以下代码中路径是写死的，能不能通过外部传参进来，当然可以！ agrsDataStream<String> dataStream = null;System.out.println(args.length);if(args.length !=0){String path ;ParameterTool parameterTool = ParameterTool.fromArgs(args);if(parameterTool.has("input")){path = parameterTool.get("input");}else{path = args[0];}dataStream =  env.readTextFile(path);}else{dataStream =  env.fromElements("spark flink kafka", "spark sqoop flink", "kakfa hadoop flink");}dataStream.flatMap(new FlatMapFunction<String, String>() {@Overridepublic void flatMap(String line, Collector<String> collector) throws Exception {String[] arr = line.split(" ");for (String word : arr) {// 循环遍历每一个切割完的数据，放入到收集器中，就可以形成一个新的DataStreamcollector.collect(word);}}}).map(new MapFunction<String, Tuple2<String, Integer>>() {@Overridepublic Tuple2<String, Integer> map(String word) throws Exception {return Tuple2.of(word, 1); // ("hello",1)}}).keyBy(new KeySelector<Tuple2<String, Integer>, String>() {@Overridepublic String getKey(Tuple2<String, Integer> tuple2) throws Exception {return tuple2.f0;}// 此处的1 指的是元组的第二个元组，进行相加的意思}).sum(1).print();// 执行env.execute();}
}

DataStream (Lambda表达式-扩展了解)

import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;import java.util.Arrays;/*** Desc 演示Flink-DataStream-流批一体API完成批处理WordCount* 使用Java8的lambda表示完成函数式风格的WordCount*/
public class WordCount02 {public static void main(String[] args) throws Exception {//TODO 1.env-准备环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();//env.setRuntimeMode(RuntimeExecutionMode.STREAMING);//指定计算模式为流//env.setRuntimeMode(RuntimeExecutionMode.BATCH);//指定计算模式为批env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);//自动//不设置的话默认是流模式defaultValue(RuntimeExecutionMode.STREAMING)//TODO 2.source-加载数据DataStream<String> dataStream = env.fromElements("flink hadoop spark", "flink hadoop spark", "flink hadoop", "flink");//TODO 3.transformation-数据转换处理//3.1对每一行数据进行分割并压扁/*public interface FlatMapFunction<T, O> extends Function, Serializable {void flatMap(T value, Collector<O> out) throws Exception;}*//*DataStream<String> wordsDS = dataStream.flatMap(new FlatMapFunction<String, String>() {@Overridepublic void flatMap(String value, Collector<String> out) throws Exception {String[] words = value.split(" ");for (String word : words) {out.collect(word);}}});*///注意:Java8的函数的语法/lambda表达式的语法: (参数)->{函数体}DataStream<String> wordsDS = dataStream.flatMap((String value, Collector<String> out) -> {String[] words = value.split(" ");for (String word : words) {out.collect(word);}}).returns(Types.STRING);//3.2 每个单词记为<单词,1>/*public interface MapFunction<T, O> extends Function, Serializable {O map(T value) throws Exception;}*//*DataStream<Tuple2<String, Integer>> wordAndOneDS = wordsDS.map(new MapFunction<String, Tuple2<String, Integer>>() {@Overridepublic Tuple2<String, Integer> map(String value) throws Exception {return Tuple2.of(value, 1);}});*/DataStream<Tuple2<String, Integer>> wordAndOneDS = wordsDS.map((String value) -> Tuple2.of(value, 1)).returns(Types.TUPLE(Types.STRING, Types.INT));//3.3分组//注意:DataSet中分组用groupBy,DataStream中分组用keyBy//KeyedStream<Tuple2<String, Integer>, Tuple> keyedDS = wordAndOneDS.keyBy(0);/*public interface KeySelector<IN, KEY> extends Function, Serializable {KEY getKey(IN value) throws Exception;}*//*KeyedStream<Tuple2<String, Integer>, String> keyedDS = wordAndOneDS.keyBy(new KeySelector<Tuple2<String, Integer>, String>() {@Overridepublic String getKey(Tuple2<String, Integer> value) throws Exception {return value.f0;}});*/KeyedStream<Tuple2<String, Integer>, String> keyedDS = wordAndOneDS.keyBy((Tuple2<String, Integer> value) -> value.f0);//3.4聚合SingleOutputStreamOperator<Tuple2<String, Integer>> result = keyedDS.sum(1);//TODO 4.sink-数据输出result.print();//TODO 5.execute-执行env.execute();}
}

此处有一个大坑，就是使用完lambda表达式以后，需要添加一个returns(Types.STRING); 否则报错，这样的话，使用lambda也不是特别快了。

连着写的版本如下：

package com.bigdata.day01;import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;public class WordCount03 {/*** 1. env-准备环境* 2. source-加载数据* 3. transformation-数据处理转换* 4. sink-数据输出* 5. execute-执行*/public static void main(String[] args) throws Exception {// 导入常用类时要注意   不管是在本地开发运行还是在集群上运行，都这么写，非常方便StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 这个是 自动 ，根据流的性质，决定是批处理还是流处理//env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);// 批处理流， 一口气把数据算出来// env.setRuntimeMode(RuntimeExecutionMode.BATCH);// 流处理，默认是这个  可以通过打印批和流的处理结果，体会流和批的含义//env.setRuntimeMode(RuntimeExecutionMode.STREAMING);// 将任务的并行度设置为2// env.setParallelism(2);// 通过这个获取系统的并行度int parallelism = env.getParallelism();System.out.println(parallelism);// 获取数据  多态的写法 DataStreamSource 它是 DataStream 的子类// 连着写的本质就是 因为每一个算子的返回值都是DataStream的子类，所以可以这么写// 以下代码中路径是写死的，能不能通过外部传参进来，当然可以！ agrsDataStream<String> dataStream = null;System.out.println(args.length);if(args.length !=0){String path ;ParameterTool parameterTool = ParameterTool.fromArgs(args);if(parameterTool.has("input")){path = parameterTool.get("input");}else{path = args[0];}dataStream =  env.readTextFile(path);}else{dataStream =  env.fromElements("spark flink kafka", "spark sqoop flink", "kakfa hadoop flink");}dataStream.flatMap((String line, Collector<String> collector) -> {String[] arr = line.split(" ");for (String word : arr) {// 循环遍历每一个切割完的数据，放入到收集器中，就可以形成一个新的DataStreamcollector.collect(word);}}).returns(Types.STRING).map((String word)-> {return Tuple2.of(word, 1); // ("hello",1)}).returns(Types.TUPLE(Types.STRING, Types.INT)).keyBy((Tuple2<String, Integer> tuple2)-> {return tuple2.f0;}).sum(1).print();// 执行env.execute();}
}

Flink学习连载第二篇-使用flink编写WordCount(多种情况演示)

使用Flink编写代码，步骤非常固定，大概分为以下几步，只要牢牢抓住步骤，基本轻松拿下： 1. env-准备环境 2. source-加载数据 3. transformation-数据处理转换 4. sink-数据输出 5. execute-执行 DataStream API开发 //n…...

编程日记 2024/11/25 23:49:07

拉格朗日乘子（Lagrange Multiplier）是数学分析中用于解决带有约束条件的优化问题的一种重要方法，特别是SVM

拉格朗日乘子（Lagrange Multiplier）是数学分析中用于解决带有约束条件的优化问题的一种重要方法，也称为拉格朗日乘数法。例如之前博文写的2月7日 SVM&线性回归&逻辑回归在支持向量机（SVM）中，为了…...

编程日记 2024/11/25 23:48:06

鸿蒙征文｜鸿蒙心路旅程：始于杭研所集训营，升华于横店

始于杭研所在2024年7月，我踏上了一段全新的旅程，前往风景如画的杭州，参加华为杭研所举办的鲲鹏&昇腾集训营。这是一个专门为开发者设计的培训项目，中途深入学习HarmonyOS相关技术。对于我这样一个对技术充满热情的学生来说&…...

编程日记 2024/11/25 23:46:03

c语言数据结构与算法--简单实现线性表（顺序表+链表）的插入与删除

老规矩，点赞评论收藏关注！！！ 目录线性表其特点是： 算法实现： 运行结果展示链表插入元素： 删除元素： 算法实现运行结果线性表是由n个数据元素组成的有限序列&#xff…...

编程日记 2024/11/25 23:41:58

MySQL底层概述—1.InnoDB内存结构

大纲 1.InnoDB引擎架构 2.Buffer Pool 3.Page管理机制之Page页分类 4.Page管理机制之Page页管理 5.Change Buffer 6.Log Buffer 1.InnoDB引擎架构 (1)InnoDB引擎架构图 (2)InnoDB内存结构 (1)InnoDB引擎架构图下面是InnoDB引擎架构图，主要分为内存结构和磁…...

编程日记 2024/11/25 23:39:55

MySQL:DATEDIFF()计算两个日期天数之差

题目需求： 计算出比前一天温度要高的日期。 select a.id from weather a, weather b where a.temperature > b.temperature and datediff(a.recordDate, b.recordDate) 1; DATEDIFF(date1, date2)函数用于计算两个日期之间的天数差。函数返回date1和date2之…...

编程日记 2024/11/25 23:37:54

Linux 编译Ubuntu24内核

参考来源： 编译并更新内核：https://www.cnblogs.com/smlile-you-me/p/18248433 编译报错–sub-make: https://forum.linuxfoundation.org/discussion/865005/facing-error-in-building-the-kernel 1.下载源码,执行如下命令，会在/usr/src下多…...

编程日记 2024/11/25 23:36:53

Android系统中init进程、zygote进程和SystemServer进程简单学习总结

Android系统中，init、zygote和SystemServer进程是系统启动和运行的关键进程，它们之间有着密切的关系，本文针对这三个进程的学习做一个简单汇总，方便后续查询。 1、init进程 Android用户空间执行的第一个程序就是它，可…...

编程日记 2024/11/25 23:34:51

1. 点击 __call__ 进入到源码 2. 找到 __call__ 方法 return 执行的是 wsgi方法 3. 点击 wsgi 方法进到 wsgi return 执行的是 response 方法 4. 点击response 方法进到 full_dispatch_request 5. full_dispatch_request 执行finalize_request 方法 6. finalize_request …...

编程日记 2024/11/25 23:29:45

leetcode代码 50道答案

‌简单难度：两数之和 def twoSum(nums, target): for i in range(len(nums)): for j in range(i 1, len(nums)): if nums[i] nums[j] target: return [i, j] return [] 简单难度：有效的括号 def isVa…...

编程日记 2024/11/25 23:20:38

Centos-stream 9,10 add repo

Centos-stream repo前言 Centos-stream 9，10更换在线阿里云创建一键更换repo 自动化脚本华为centos-stream 源 , 阿里云centos-stream 源华为epel 源 , 阿里云epel 源vim /centos9_10_repo.sh #!/bin/bash # -*- coding: utf-8 -*- # Author: make.h...

编程日记 2024/11/25 23:16:33

【隐私计算大模型】联邦深度学习之拆分学习Split learning原理及安全风险、应对措施以及在大模型联合训练中的应用案例

Tips：在两方场景下，设计的安全算法，如果存在信息不对等性，那么信息获得更多的一方可以有概率对另一方实施安全性攻击。 1. 拆分学习原理本文介绍了一种适用于隐私计算场景的深度学习实现方案——拆分学习，又称分割…...

编程日记 2024/11/25 23:07:26

DataWhale—PumpkinBook（TASK05决策树）

课程开源地址及相关视频链接：（当然这里也希望大家支持一下正版西瓜书和南瓜书图书，支持文睿、秦州等等致力于开源生态建设的大佬✿✿ヽ(▽)ノ✿） Datawhale-学用 AI,从此开始【吃瓜教程】《机器学习公式详解》（南瓜…...

编程日记 2024/11/25 23:06:24

elasticsearch7.10.2集群部署带认证

安装elasticsearch rpm包安装下载地址 https://mirrors.aliyun.com/elasticstack/7.x/yum/7.10.2/ 生成证书 #1.生成CA证书 # 生成CA证书,执行命令后,系统还会提示你输入密码,可以直接留空 cd /usr/share/elasticsearch/bin ./elasticsearch-certutil ca#会在/usr/share/el…...

编程日记 2024/11/25 23:04:21

Java基础-I/O流

(创作不易，感谢有你，你的支持，就是我前行的最大动力，如果看完对你有帮助，请留下您的足迹） 目录字节流定义说明 InputStream与OutputStream示意图说明 InputStream的常用方法说明 OutputStrea…...

编程日记 2024/11/25 22:54:13

全面解析多种mfc140u.dll丢失的解决方法，五种方法详细解决

当你满心期待地打开某个常用软件，却突然弹出一个错误框，提示“mfc140u.dll丢失”，那一刻，你的好心情可能瞬间消失。这种情况在很多电脑用户的使用过程中都可能出现。无论是游戏玩家还是办公族，面对这个问题都可能不知所…...

编程日记 2024/11/25 22:46:07

详细探索xinput1_3.dll：功能、问题与xinput1_3.dll丢失的解决方案

本文旨在深入探讨xinput1_3.dll这一动态链接库文件。首先介绍其在计算机系统中的功能和作用，特别是在游戏和输入设备交互方面的重要性。然后分析在使用过程中可能出现的诸如文件丢失、版本不兼容等问题，并提出相应的解决方案，包括重新安装相关…...

编程日记 2024/11/25 22:43:04

InfluxDB时序数据库笔记（一）

InfluxDB笔记一汇总 1、时间序列数据库概述2、时间序列数据库特点3、时间序列数据库应用场景4、InfluxDB数据生命周期5、InfluxDB历史数据需要另外归档吗？6、InfluxDB历史数据如何归档？7、太麻烦了，允许的话选择设施完备的InfluxDB云产品吧8、…...

编程日记 2024/11/25 22:40:02

Spring Boot 3.x + OAuth 2.0：构建认证授权服务与资源服务器

Spring Boot 3.x OAuth 2.0：构建认证授权服务与资源服务器前言随着Spring Boot 3的发布，我们迎来了许多新特性和改进，其中包括对Spring Security和OAuth 2.0的更好支持。本文将详细介绍如何在Spring Boot 3.x版本中集成OAuth 2.0&#xf…...

编程日记 2024/11/25 22:31:53

2024年09月CCF-GESP编程能力等级认证Scratch图形化编程二级真题解析

本文收录于《Scratch等级认证CCF-GESP图形化真题解析》专栏，专栏总目录：点这里，订阅后可阅读专栏内所有文章。一、单选题（共 10 题，每题 3 分，共 30 分）第 1 题据有关资料，山东大学于 1972 年研制成功 DJL-1 计算机，并于 1973 年投入运行，其综合性能居当时全国第…...

编程日记 2024/11/25 22:27:49

Linux 正则表达式（basic and extened）

正则表达式(Regular Expressions)，整理自： https://pubs.opengroup.org/onlinepubs/9699919799/basedefs/V1_chap09.html gred sed 定义 Regular Expressions (REs) provide a mechanism to select specific strings from a set of character strings.…...

编程日记 2024/11/25 22:26:48

GB 35114-2017 学习笔记（规避版权阉割版）

GB 35114-2017 学习笔记（规避版权阉割版） openstd.samr.gov.cn 国家标准全文公开系统这个政府网站提供GB 35114-2017标准的的预览和下载，有需要的自行下载 GB 35114-2017作为一个国家强制标准，在国家标准全文公开系统自己做个…...

编程日记 2024/11/25 22:24:46

YOLO-FaceV2: A Scale and Occlusion Aware Face Detector

《YOLO-FaceV2:一种尺度与遮挡感知的人脸检测器》 1.引言2.相关工作3.YOLO-FaceV23.1网络结构3.2尺度感知RFE模型3.3遮挡感知排斥损失3.4遮挡感知注意力网络3.5样本加权函数3.6Anchor设计策略3.7 归一化高斯Wasserstein距离 4.实验4.1 数据集4.2 训练4.3 消融实验4.3.1 SEAM块4…...

编程日记 2024/11/25 22:20:39

进程间通信--详解

目录前言一、进程间通信介绍1、进程间通信目的2、进程间通信发展3、进程间通信的分类4、进程间通信的必要性5、进程间通信的技术背景6、进程间通信的本质理解二、管道1、什么是管道2、匿名管道pipe（1）匿名管道的原理（2）pipe函数…...

编程日记 2024/11/25 22:14:34

零基础上手WebGIS+智慧校园实例（1）【html by js】

请点个赞收藏关注支持一下博主喵！！！ 等下再更新一下1. WebGIS矢量图形的绘制（超级详细！！），2. WebGIS计算距离， 以及智慧校园实例 with 3个例子！！…...

编程日记 2024/11/25 22:10:29

【Github】如何使用Git将本地项目上传到Github

【Github】如何使用Git将本地项目上传到Github 写在最前面1. 注册Github账号2. 安装Git工具配置用户名和邮箱仅为当前项目配置（可选） 3. 创建Github仓库4. 获取仓库地址5. 本地操作（1）进入项目文件夹（2）克隆…...

编程日记 2024/11/25 22:09:28

集合Queue、Deque、LinkedList、ArrayDeque、PriorityQueue详解

1、 Queue与Deque的区别在研究java集合源码的时候，发现了一个很少用但是很有趣的点：Queue以及Deque； 平常在写leetcode经常用LinkedList向上转型Deque作为栈或者队列使用，但是一直都不知道Queue的作用，于是就直接官方…...

编程日记 2024/11/25 22:06:25

谈一下开源生态对 AI人工智能大模型的促进作用

谈一下开源生态对 AI人工智能大模型的促进作用作者：开源呼叫中心系统 FreeIPCC，Github地址：https://github.com/lihaiya/freeipcc 开源生态对大模型的促进作用是一个多维度且深远的话题，它不仅加速了技术创新的速度，…...

编程日记 2024/11/25 22:03:22

基于python的机器学习（四）—— 聚类（一）

目录一、聚类的原理与实现 1.1 聚类的概念和类型 1.2 如何度量距离 1.2.1 数据的类型 1.2.2 连续型数据的距离度量方法 1.2.3 离散型数据的距离度量方法 1.3 聚类的基本步骤二、层次聚类算法 2.1 算法原理和实例 2.2 算法的Sklearn实现 2.2.1 层次聚类法的可视化实…...

编程日记 2024/11/25 21:58:17

实时数据开发 | 怎么通俗理解Flink容错机制，提到的checkpoint、barrier、Savepoint、sink都是什么

今天学Flink的关键技术–容错机制，用一些通俗的比喻来讲这个复杂的过程。参考自《离线和实时大数据开发实战》需要先回顾昨天发的Flink关键概念检查点（checkpoint） Flink容错机制的核心是分布式数据流和状态的快照，从而当分布…...

编程日记 2024/11/25 21:57:16

Flink学习连载第二篇-使用flink编写WordCount(多种情况演示)

DataStream API开发

0. 添加依赖

编写代码

对结果进行解释：

关于并行度的代码演示：

DataStream (Lambda表达式-扩展了解)

相关文章：

Flink学习连载第二篇-使用flink编写WordCount(多种情况演示)

拉格朗日乘子（Lagrange Multiplier）是数学分析中用于解决带有约束条件的优化问题的一种重要方法，特别是SVM

鸿蒙征文｜鸿蒙心路旅程：始于杭研所集训营，升华于横店

c语言数据结构与算法--简单实现线性表（顺序表+链表）的插入与删除

MySQL底层概述—1.InnoDB内存结构

MySQL:DATEDIFF()计算两个日期天数之差

Linux 编译Ubuntu24内核

Android系统中init进程、zygote进程和SystemServer进程简单学习总结

Flask 基于wsgi源码启动流程

leetcode代码 50道答案

Centos-stream 9,10 add repo

【隐私计算大模型】联邦深度学习之拆分学习Split learning原理及安全风险、应对措施以及在大模型联合训练中的应用案例

DataWhale—PumpkinBook（TASK05决策树）

elasticsearch7.10.2集群部署带认证

Java基础-I/O流

全面解析多种mfc140u.dll丢失的解决方法，五种方法详细解决

详细探索xinput1_3.dll：功能、问题与xinput1_3.dll丢失的解决方案

InfluxDB时序数据库笔记（一）

Spring Boot 3.x + OAuth 2.0：构建认证授权服务与资源服务器

2024年09月CCF-GESP编程能力等级认证Scratch图形化编程二级真题解析

Linux 正则表达式（basic and extened）

GB 35114-2017 学习笔记（规避版权阉割版）

YOLO-FaceV2: A Scale and Occlusion Aware Face Detector

进程间通信--详解

零基础上手WebGIS+智慧校园实例（1）【html by js】

【Github】如何使用Git将本地项目上传到Github

集合Queue、Deque、LinkedList、ArrayDeque、PriorityQueue详解

谈一下开源生态对 AI人工智能大模型的促进作用

基于python的机器学习（四）—— 聚类（一）

实时数据开发 | 怎么通俗理解Flink容错机制，提到的checkpoint、barrier、Savepoint、sink都是什么

DataStream API开发

0. 添加依赖

编写代码

对结果进行解释：

关于并行度的代码演示：

DataStream (Lambda表达式-扩展 了解)

相关文章：

DataStream (Lambda表达式-扩展了解)