当前位置：首页 > news >正文

大数据实战 --- 美团外卖平台数据分析

news 文章来源：https://blog.csdn.net/qq_57151931/article/details/130245614 2025/4/22 19:44:54

开发环境

数据描述

功能需求

数据准备

数据分析

RDD操作

Spark SQL操作

创建Hbase数据表

创建外部表

统计查询

开发环境

Hadoop+Hive+Spark+HBase

启动Hadoop：start-all.sh

启动zookeeper：zkServer.sh start

启动Hive：

nohup hiveserver2 1>/dev/null 2>&1 &

beeline -u jdbc:hive2://192.168.152.192:10000

启动Hbase：

start-hbase.sh

hbase shell

启动Spark：

spark-shell

数据描述

meituan_waimai_meishi.csv 是美团外卖平台的部分外卖 SPU（Standard Product Unit ，标准产品单元）数据，包含了外卖平台某地区一时间的外卖信息。具体字段说明如下：

功能需求

数据准备

请在 HDFS 中创建目录 /app/data/exam ，并将 meituan_waimai_meishi.csv 文件传到该

目录。并通过 HDFS 命令查询出文档有多少行数据。

创建文件
hdfs dfs -mkdir -p /app/data/exam

上传目录
hdfs dfs -put ./meituan_waimai_meishi.csv /app/data/exam

查看文件行数
hdfs dfs -cat /app/data/exam/meituan_waimai_meishi.csv | wc -l

数据分析

使用 Spark, 加载 HDFS 文件系统 meituan_waimai_meishi.csv 文件，并分别使用 RDD

和 Spark SQL 完成以下分析（不用考虑数据去重）。

RDD操作

    val spark: SparkSession = SparkSession.builder().master("local[*]").appName("exam").getOrCreate()val sc: SparkContext = spark.sparkContextval lines: RDD[String] = sc.textFile("hdfs://192.168.152.192:9000/app/data/exam/meituan_waimai_meishi.csv")val lines1: RDD[Array[String]] = lines.filter(x => x.startsWith("spu_id") == false).map(x => x.split(","))

①统计每个店铺分别有多少商品（SPU）。

lines1.map(x => (x(2), 1)).reduceByKey(_ + _).collect().foreach(println)

②统计每个店铺的总销售额。

lines1.map(x => (x(2), Try(x(5).toDouble).toOption.getOrElse(0.0) *Try(x(7).toInt).toOption.getOrElse(0))).reduceByKey(_ + _).collect().foreach(println)

③统计每个店铺销售额最高的前三个商品，输出内容包括店铺名，商品名和销售额，其

中销售额为 0 的商品不进行统计计算，例如：如果某个店铺销售为 0，则不进行统计。

    //方法一lines1.map(x => (x(2), x(4), Try(x(5).toDouble).toOption.getOrElse(0.0) *Try(x(7).toInt).toOption.getOrElse(0))).filter(x => x._3 > 0).groupBy(x => x._1).mapValues(value => value.toList.sortBy(x => -x._3).take(3)) //负号(-)降序.flatMapValues(x => x).collect().foreach(println)//方法二lines1.map(x => (x(2), x(4), Try(x(5).toDouble).toOption.getOrElse(0.0) *Try(x(7).toInt).toOption.getOrElse(0))).filter(x => x._3 > 0).groupBy(x => x._1).flatMap(x => x._2.toList.sortBy(y => 0 - y._3).take(3)).foreach(println)//方法三lines1.map(x => (x(2), x(4), Try(x(5).toDouble).toOption.getOrElse(0.0) *Try(x(7).toInt).toOption.getOrElse(0))).filter(x => x._3 > 0).groupBy(x => x._1).map(x => {var shop_name: String = x._1;var topThree: List[(String, String, Double)] = x._2.toList.sortBy(item => 0 - item._3).take(3);var shopNameAndSumMoney: List[String] = topThree.map(it => it._2 + " " + it._3);(shop_name, shopNameAndSumMoney)}).foreach(println)

Spark SQL操作

    val spark: SparkSession = SparkSession.builder().master("local[*]").appName("exam").getOrCreate()val sc: SparkContext = spark.sparkContextval spuDF: DataFrame = spark.read.format("csv").option("header", true).load("hdfs://192.168.152.192:9000/app/data/exam/meituan_waimai_meishi.csv")spuDF.createOrReplaceTempView("sputb")

①统计每个店铺分别有多少商品（SPU）。

spark.sql("select * from sputb").show()

②统计每个店铺的总销售额。

spark.sql("select shop_name,count(shop_name) as num  from sputb group by shop_name").show()

③统计每个店铺销售额最高的前三个商品，输出内容包括店铺名，商品名和销售额，其中销售额为 0 的商品不进行统计计算，例如：如果某个店铺销售为 0，则不进行统计。

spark.sql("select shop_name, sum(spu_price * month_sales)  as sumMoney  from sputb group by shop_name").show()

创建Hbase数据表

在 HBase 中创建命名空间（namespace）exam，在该命名空间下创建 spu 表，该表下有

1 个列族 result。

create 'exam:spu','result'

创建外部表

请在 Hive 中创建数据库 spu_db

create database spu_db;

在该数据库中创建外部表 ex_spu 指向 /app/data/exam 下的测试数据 ;

create external table if not exists  ex_spu (spu_id string,shop_id string,shop_name string,category_name string,spu_name string,spu_price double,spu_originprice double,month_sales int,praise_num int,spu_unit string,spu_desc string,spu_image string
)
row format delimited fields terminated by ","
stored as textfile location "/app/data/exam"
tblproperties ("skip.header.line.count"="1");

创建外部表 ex_spu_hbase 映射至 HBase 中的 exam:spu 表的 result 列族

create external table if not exists ex_spu_hbase
(key string,sales double,praise int
)
stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with
serdeproperties ("hbase.columns.mapping"=":key,result:sales,result:praise")
tblproperties ("hbase.table.name"="exam:spu");

统计查询

① 统计每个店铺的总销售额 sales, 店铺的商品总点赞数 praise ，并将 shop_id 和

shop_name 的组合作为 RowKey ，并将结果映射到 HBase 。

insert into ex_spu_hbase
select concat(tb.shop_id,tb.shop_name) as key, tb.sales,tb.praise from
(select shop_id,shop_name,sum(spu_price*month_sales) as sales, sum(praise_num) as praise
from ex_spu group by shop_id,shop_name) tb;

② 完成统计后，分别在 hive 和 HBase 中查询结果数据。

hive > select * from ex_spu_hbase;hbase(main):007:0> scan 'exam:spu'

大数据实战 --- 美团外卖平台数据分析

目录开发环境数据描述功能需求数据准备数据分析 RDD操作 Spark SQL操作创建Hbase数据表创建外部表统计查询开发环境 HadoopHiveSparkHBase 启动Hadoop：start-all.sh 启动zookeeper：zkServer.sh start 启动Hive： nohup …...

编程日记 2023/4/29 12:53:07

三大本土化战略支点，大陆集团扩大中国市场生态合作「朋友圈」

“在中国，大陆集团已经走过30余年的发展与耕耘历程，并在过去10年间投资了超过30亿欧元。中国市场也成为了我们重要的‘增长引擎’与‘定海神针’。未来，我们将继续深耕中国这个技术导向的市场。”4月19日上海车展上，大陆集团首席执…...

编程日记 2023/4/29 12:48:06

为什么停更ROS2机器人课程-2023-

机器人工匠阿杰肺腑之言： 我放弃了ROS2课程真正的危机不是同行竞争，比如教育从业者相互竞争不会催生ChatGPT…… 技术变革的突破式发展通常是新势力带来的而非传统行业的升级改革。 2013年也就是10年前在当时主流视频网站开启分享： 比如 …...

编程日记 2023/5/31 9:25:14

【SpringCloud常见面试题】

SpringCloud常见面试题 1.微服务篇1.1.SpringCloud常见组件有哪些？1.2.Nacos的服务注册表结构是怎样的？1.3.Nacos如何支撑阿里内部数十万服务注册压力？1.4.Nacos如何避免并发读写冲突问题？1.5.Nacos与Eureka的区别有哪些&#xff…...

编程日记 2023/4/29 12:38:04

ChatGPT+智能家居在AWE引热议 OpenCPU成家电产业智能化降本提速引擎

作为家电行业的风向标和全球三大消费电子展之一，4月27日-30日，以“智科技、创未来”为主题的AWE 2023在上海新国际博览中心举行，本届展会展现了科技、场景等创新成果，为我们揭示家电与消费电子的发展方向。今年展馆规模扩大至14个…...

编程日记 2023/4/29 12:33:03

拷贝构造函数和运算符重载

文章目录拷贝构造函数特点分析拷贝构造函数情景赋值运算符重载运算符重载operator<运算符重载赋值运算符前置和后置重载拷贝构造函数在创建对象的时候，是不是存在一种函数，使得能创建一个于已经存在的对象一模一样的新对象，那么接下…...

编程日记 2023/4/29 12:28:02

本周热门chatGPT之AutoGPT-AgentGPT，可以实现完全自主实现任务，附部署使用教程

AutoGPT 是一个实验性的开源应用程序，它由GPT-4驱动，但有别于ChatGPT的是， 这与ChatGPT的底层语言模型一致。 AutoGPT 的定位是将LLM的"思想"串联起来，自主地实现你设定的任何目标。简单的说，你只用提出…...

编程日记 2023/4/29 12:23:01

Mysql 优化LEFT JOIN语句

1.首先说一下个人对LEFT JOIN 语句的看法，原先我是没注意到LEFT JOIN 会影响到性能的，因为我平时在项目开发中，是比较经常见到很多个关联表的语句的。 2.阿里巴巴手册说过，连接表的语句最好不超过3次，但是我碰到的项目…...

编程日记 2023/5/30 18:30:25

全栈成长-python学习笔记之数据类型

python数据类型数字类型类型类型转换整型 intint() 字符串类型转换浮点型保留整数 int(3.14)3 int(3.94)3浮点型 floatfloat() #####字符串类型类型类型转换字符串 strstr() 将其他数据类型转为字符串布尔类型与空类型布尔类型类型类型转换布尔型 boolbool()将其他…...

编程日记 2023/4/29 12:12:59

面试|兴盛优选数据分析岗

1.离职原因、离职时间点 2.上一份工作所在的部门、小组、小组人员数、小组内的分工 3.个人负责的目标，具体是哪方面的成本 4.为了降低专员成本，做了哪些方面的工作偏向于机制、分析方法、思维，当下主要是对于部分高收入专员收入不合理的情况…...

编程日记 2023/4/29 12:07:56

Redis（08）主从复制master-slave replication

文章目录 redis主从复制一. 配置文件的方式设置1. 主节点配置:2. 从节点1配置:3. 从节点2配置: 二. 命令的方式设置1. 创建服务2. 设置主从节点3. 测试三. 从节点升级为主节点四. 查看主从关系 redis主从复制 Redis主从复制是将一个Redis实例的数据复制到多个Redis实例&#…...

编程日记 2023/4/29 12:02:55

被chatGPT割了一块钱韭菜

大家好，才是真的好。 chatGPT热度一直上升，让我萌生了一个胆大而创新的想法， 把chatGPT嵌入到Notes客户机中来玩。考虑到我已经下载了一个chatGPT的Notes应用（请见《ChatGPT APIs for HCL DOMINO》），想着…...

编程日记 2023/4/29 11:57:54

vue3+ts+pinia+vite一次性全搞懂

vue3tspiniavite项目一：新建一个vue3ts的项目二：安装一些依赖三：pinia介绍、安装、使用介绍pinia页面使用pinia修改pinia中的值四：typescript的使用类型初识枚举一：新建一个vue3ts的项目前提是所处vue环境为vue3&…...

编程日记 2023/4/29 11:52:53

Apache安装与基本配置

1. 下载apache 地址：www.apache.org/download.cgi，选择“files for microsoft windows”→点击”ApacheHaus”→点击”Apache2.4 VC17”，选择x64/x86，点击右边download下面的图标。 2. 安装apache （1）把…...

编程日记 2023/4/29 11:47:52

哈夫曼树【北邮机试】

一、哈夫曼树机试考察的最多的就是WPL，是围绕其变式展开考察。哈夫曼树的构建是不断选取集合中最小的两个根节点进行合并，而且在合并过程中排序也会发生变化，因此最好使用优先队列来维护单调性，方便排序和合并。核心代码如下…...

编程日记 2023/4/29 11:42:51

thinkphp:数值（保留小数点后N位，四舍五入，左侧补零，格式化货币，取整，生成随机数，数字与字母进行转换）

一、保留小数点后N位/类似四舍五入（以保留小数点后三位为准） number_format()函数：第一个参数为要格式化的数字，第二个参数为保留的小数位数方法一： public function test() {$num 12.56789; // 待格式化的数字$r…...

编程日记 2023/4/29 11:37:50

用Flutter你得了解的七个问题

Flutter是Google推出的一款用于构建高性能、高保真度移动应用程序、Web和桌面应用程序的开源UI工具包。Flutter使用自己的渲染引擎绘制UI，为用户提供更快的性能和更好的体验。 Flutter使用Dart语言，具有强大的类型、效率和易学能力，基本上你…...

编程日记 2023/5/30 1:43:40

Nmap使用手册

Nmap语法 -A 全面扫描/综合扫描 nmap-A 127.0.0.1 扫描指定网段 nmap 127.0.0.1 nmap 127.0.0.1/24Nmap 主机发现 -sP ping扫描 nmap -sP 127.0.0.1-P0 无ping扫描备注：【协议1,协设2〕【目标】扫描 nmap -P0 127.0.0.1如果想知道是如何判断目标主机是否存在可…...

编程日记 2023/4/29 11:27:48

基于ResNet-attention的负荷预测

一、attention机制注意力模型最近几年在深度学习各个领域被广泛使用，无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中，都很容易遇到注意力模型的身影。从注意力模型的命名方式看，很明显其借鉴了人类的注意力机制。我们来看…...

编程日记 2023/4/29 11:22:46

华为校招机试 - 批量初始化次数（20230426）

题目描述某部门在开发一个代码分析工具，需要分析模块之间的依赖关系，用来确定模块的初始化顺序是否有循环依赖等问题。 "批量初始化”是指一次可以初始化一个或多个模块。例如模块1依赖模块2，模块3也依赖模块2，但模块1和3没有依赖关系，则必须先"批量初始化”…...

编程日记 2023/4/29 11:17:45

WhatsApp CRM：通过 CRM WhatsApp 集成向客户发送消息

WhatsApp CRM：通过 CRM WhatsApp 集成向客户发送消息你是否在寻找一个支持WhatsApp整合的CRM？或者，你想将WhatsApp与你当前的CRM整合？这篇文章将回答你所有的问题。我们将首先了解什么是WhatsApp CRM，以及你需要知道…...

编程日记 2023/5/30 10:45:07

SOLIDWORKS Electrical无缝集成电气和机械设计

集成电气系统设计SOLIDWORKS⑧Electrical 解决方案借助专为工程专业设计的特定工具简化了电气铲品设计，并借助直观的用户界面更快地设计嵌入式电气系统。与SOLIDWORKS 3DCAD的原生集成能提供更好的协作与生产效率，同时减少产品延迟、提高设计的一致性与…...

编程日记 2023/4/29 11:07:43

Numpy从入门到精通——数组变形|合并数组

这个专栏名为《Numpy从入门到精通》，顾名思义，是记录自己学习numpy的学习过程，也方便自己之后复盘！为深度学习的进一步学习奠定基础！希望能给大家带来帮助，爱睡觉的咋祝您生活愉快！ 这一篇介绍《…...

编程日记 2023/4/29 11:02:41

DJ4-5 路由算法：LS 和 DV

目录一、迪杰斯特拉算法 1. 术语定义 2. 算法描述 3. 举例说明 4. 构建从源节点到目的节点的路径 5. 构建最低费用路径树 6. 构建转发表二、距离向量路由算法 1. 术语定义 2. 举例说明 3. 距离向量表 4. 更新距离向量表 5. 举例说明三、距离向量路由算法 PLUS…...

编程日记 2023/4/29 10:57:40

python图像处理之形态学梯度、礼帽、黑帽

文章目录简介实战简介腐蚀和膨胀是图像形态学处理的基本运算，这两种运算的复合运算构成了开和闭，而腐蚀、膨胀与原图之间的加减操作，则构成了形态学梯度、礼帽和黑帽计算。由于这几种函数均基于腐蚀和膨胀，所以其参数均与开…...

编程日记 2023/4/29 10:52:39

千万级直播系统后端架构设计

1、架构方面 1.1 基本该图是某大型在线演唱会的直播媒体架构简图。可以看出一场大型活动直播涵盖的技术方案点非常庞杂，本节接下来的内容我们将以推拉流链路、全局智能调度、流量精准调度以及单元化部署，对这套直播方案做一个展开介绍。 1.2 推拉流链…...

编程日记 2023/4/29 10:47:38

ImageJ 用户手册——第五部分（菜单命令File，Edit）

这里写目录标题菜单命令26. File26.1 New26.1.1 Image26.1.2 Hyperstack26.1.3 Text Window26.1.4 Internal Clipboard26.1.5 System Clipboard 26.2 Open26.3 Open Next26.4 Open Samples26.5 Open Recent26.6 Import26.6.1 Image Sequence26.6.2 Raw26.6.3 LUT26.6.4 Text I…...

编程日记 2023/4/29 10:42:37

nmap常用命令

一、nmap简介 Nmap，也就是Network Mapper。nmap是一个网络连接端扫描软件，用来扫描网上电脑开放的网络连接端。确定哪些服务运行在哪些连接端，并且推断计算机运行哪个操作系统(这是亦称 fingerprinting)。它是网络管理员必用的软件之一&…...

编程日记 2023/4/29 10:37:36

常用adb 命令

目录一、常用简单的adb命令： 二、adb shell pm基本的命令： 三、adb shell am基本的命令： 四、关闭某项进程，以monkey为例： 五、最近12小时的资源情况： 六、录制屏幕命令： 七、截图命令&am…...

编程日记 2023/4/29 10:32:35

后端开发常犯的问题（Java版）

数据类型使用不当 ——钱相关的计算，数据类型必须用BigDecimal 1.很多开发在做金额计算时会使用double数据类型，自测一些常用场景认为double是满足需求的因而图省事直接使用此数据类型。使用double类型存在金额精度丢失的风险，涉及到钱的数据…...

编程日记 2023/4/29 10:27:34

开发环境

数据描述

功能需求

数据准备

数据分析

RDD操作

Spark SQL操作

创建Hbase数据表

创建外部表

统计查询

相关文章：