当前位置：首页 > news >正文

pyspark使用 graphframes创建和查询图的方法

news 2026/2/8 12:59:07

1、安装graphframes的步骤

1.1 查看 spark 和 scala版本

在终端输入： spark-shell --version 查看spark 和scala版本

1.2 在maven库中下载对应版本的graphframes

https://mvnrepository.com/artifact/graphframes/graphframes

我这里需要的是spark 2.4 scala 2.11版本

https://mvnrepository.com/artifact/graphframes/graphframes/0.8.0-spark2.4-s_2.11

1.3 在pyspark的环境中配置graphframe的jar包

os.environ['PYSPARK_PYTHON'] = 'Python3.7/bin/python'
os.environ['PYSPARK_SUBMIT_ARGS'] = '--jars graphframes-0.8.1-spark2.4-s_2.11.jar pyspark-shell'spark = SparkSession \.builder \.appName("read_data") \.config('spark.pyspark.python', 'Python3.7/bin/python') \.config('spark.yarn.dist.archives', 'hdfs://ns62007/user/dmc_adm/_PYSPARK_ENV/Python3.7.zip#Python3.7') \.config('spark.executorEnv.PYSPARK_PYTHON', 'Python3.7/bin/python') \.config('spark.sql.autoBroadcastJoinThreshold', '-1') \.enableHiveSupport() \.getOrCreate()spark.sparkContext.addPyFile('graphframes-0.8.1-spark2.4-s_2.11.jar')

2、导入GraphFrame创建图

2.1 导入包使用

from graphframes import GraphFrame

2.2 创建图的例子

from pyspark.sql.types import *
import pandas as pd
from graphframes import GraphFrame#创建图的方法1
v = spark.createDataFrame([("a", "Alice", 34),("b", "Bob", 36),("c", "Charlie", 30),
], ["id", "name", "age"])# Create an Edge DataFrame with "src" and "dst" columns
e = spark.createDataFrame([("a", "b", "friend"),("b", "c", "follow"),("c", "b", "follow"),
], ["src", "dst", "relationship"])
# Create a GraphFrame
g = GraphFrame(v, e)# Query: Get in-degree of each vertex.
g.inDegrees.show()

也可以简单化顶点和边：

#创建图的方法2
edges_df= spark.createDataFrame([("a", "b"),("b", "c"),("c", "b"),
], ["src", "dst"])
nodes_df=spark.createDataFrame([(1, "a"),(2, "b"),(3, "c")
], ["num","id"])graph=GraphFrame(nodes_df, edges_df)
graph.inDegrees.show()

3、使用GraphFrame查看图

3.1 找出age属性最小的顶点

# 你可以像使用 dataframe一样来使用 graphframe!!!!
g.vertices.groupBy().min("age").show()

3.2 过滤顶点和边，创建子图

# 直接用filterVertices和filterEdges过滤顶点和边用来创建子图
g1.filterVertices("age > 30").filterEdges("relationship = 'friend'").vertices.show()
g1.filterVertices("age > 30").filterEdges("relationship = 'friend'").dropIsolatedVertices().vertices.show()

3.3 也可以像dataframe一样过滤顶点和边

g.vertices.where(col("id")=="a").show()
print(g.vertices.where(col("age")==34).count())g.edges.show()
g.edges.where(col("src")>col("dst")).show()

3.4 路径搜索和筛选

# 路径搜索
paths = g.find("(a)-[e]->(b)")
paths.show()# 路径搜索 和筛选
path = g.find("(a)-[e]->(b)")\.filter("e.relationship = 'follow'")\.filter("a.age < b.age")
path.show()

3.5 计算BFS

# 计算bfs
res = g1.bfs("id='b'","id<>'b'")
res.select([column for column in res.columns]).show()

3.6 查看关系数据集中的列

# 选择关系数据集中的列
e2 = paths.select("e.src", "e.dst", "e.relationship")
e2.show()

3.7 使用顶点和边的集合构造子图

# 使用顶点和边的集合构造子图
g2 = GraphFrame(g.vertices, e2)
g2.vertices.show()
g2.edges.show()

3.8 统计符合条件的边和顶点个数

# Query: Count the number of "follow" connections in the graph.
t = g.edges.filter("relationship = 'follow'").count()
print(t)print(g.vertices.where(col("age")==34).count())

3.9 计算每个节点的入度和出度

from pyspark.sql import functions as F
# 计算每个节点的入度和出度
in_degrees = g.inDegrees
out_degrees = g.outDegrees# 找到具有最大入度的节点
max_in_degree = in_degrees.agg(F.max("inDegree")).head()[0]
node_with_max_in_degree = in_degrees.filter(in_degrees.inDegree == max_in_degree).select("id")# 找到具有最大出度的节点
max_out_degree = out_degrees.agg(F.max("outDegree")).head()[0]
node_with_max_out_degree = out_degrees.filter(out_degrees.outDegree == max_out_degree).select("id")# 打印结果
node_with_max_in_degree.show()
node_with_max_out_degree.show()

3.10 计算顶点的pagerank

# Run PageRank algorithm, and show results.
results = g.pageRank(resetProbability=0.01, maxIter=5)
results.vertices.select("id", "pagerank").show()
results.vertices.show()

4、graphframes和spark 的graphX的区别

GraphX - Spark 2.3.0 Documentation

GraphFrames，该类库是构建在Spark DataFrames之上，它既能利用DataFrame良好的扩展性和强大的性能，同时也为Scala、Java和Python提供了统一的图处理API。GraphX基于RDD API，不支持Python API；但GraphFrame基于DataFrame，并且支持Python API。

目前GraphFrames还未集成到Spark中，而是作为单独的项目存在。GraphFrames遵循与Spark相同的代码质量标准，并且它是针对大量Spark版本进行交叉编译和发布的。

与Apache Spark的GraphX类似，GraphFrames支持多种图处理功能，有下面几方面的优势：

1、统一的 API: 为Python、Java和Scala三种语言提供了统一的接口，这是Python和Java首次能够使用GraphX的全部算法。

2、强大的查询功能：GraphFrames使得用户可以构建与Spark SQL以及DataFrame类似的查询语句。

3、图的存储和读取：GraphFrames与DataFrame的数据源完全兼容，支持以Parquet、JSON以及CSV等格式完成图的存储或读取。

　　在GraphFrames中图的顶点(Vertex)和边(Edge)都是以DataFrame形式存储的，所以一个图的所有信息都能够完整保存。

4、GraphFrames可以实现与GraphX的完美集成。两者之间相互转换时不会丢失任何数据。

5、书：图算法《Graph Algorithm》

O'Reilly free ebook《Graph Algorithm - Practical Examples in Apache Spark and Neo4j》

作者 Mark Needham & Amy E. Hodler

书旨在围绕这些重要的图分析类型，包括算法、概念、算法在机器学习上的实际应用，来扩展我们的知识和能力。从基本概念到基本算法，从处理平台和实际用例，作者为图的精彩世界编制了一份具有启发性和说明性的指南。

《图算法》第四章-1 路径查找和图搜索算法

pyspark使用 graphframes创建和查询图的方法

1、安装graphframes的步骤 1.1 查看 spark 和 scala版本在终端输入： spark-shell --version 查看spark 和scala版本 1.2 在maven库中下载对应版本的graphframes https://mvnrepository.com/artifact/graphframes/graphframes 我这里需要的是spark 2.4 scala 2.…...

编程日记 2024/7/21 12:59:15

【web】-flask-简单的计算题（不简单）

打开页面是这样的初步思路，打开F12，查看头，都发现了这个表达式的base64加密字符串。编写脚本提交答案，发现不对； 无奈点开source发现源代码，是flask,初始化表达式，获取提交的表达式&#xff0…...

编程日记 2024/7/21 12:55:11

Apache Sqoop

Apache Sqoop是一个开源工具，用于在Apache Hadoop和关系型数据库（如MySQL、Oracle、PostgreSQL等）之间进行数据的批量传输。其主要功能包括： 1. 数据导入：从关系型数据库（如MySQL、Oracle等）中将…...

编程日记 2024/7/21 12:54:10

【Python】TensorFlow介绍与实战

TensorFlow介绍与使用 1. 前言在人工智能领域的快速发展中，深度学习框架的选择至关重要。TensorFlow 以其灵活性和强大的社区支持，成为了许多研究者和开发者的首选。本文将进一步扩展对 TensorFlow 的介绍，包括其优势、应用场景以及在最新…...

编程日记 2024/7/21 12:50:06

第100+16步 ChatGPT学习：R实现Xgboost分类

基于R 4.2.2版本演示一、写在前面有不少大佬问做机器学习分类能不能用R语言，不想学Python咯。答曰：可！用GPT或者Kimi转一下就得了呗。加上最近也没啥内容写了，就帮各位搬运一下吧。二、R代码实现Xgboost分类 &#xff08…...

编程日记 2024/7/21 12:49:05

【操作系统】定时器(Timer)的实现

这里写目录标题定时器一、定时器是什么二、标准库中的定时器三、实现定时器定时器一、定时器是什么定时器也是软件开发中的⼀个重要组件.类似于⼀个"闹钟".达到⼀个设定的时间之后,就执行某个指定好的代码. 定时器是⼀种实际开发中⾮常常用的组件. ⽐如⽹络通…...

编程日记 2024/7/21 12:48:04

鸿蒙Navigation路由能力汇总

基本使用步骤： 1、新增配置文件router_map： 2、在moudle.json5中添加刚才新增的router_map配置： 3、使用方法： 属性汇总： https://developer.huawei.com/consumer/cn/doc/harmonyos-references/ts-basic-compone…...

编程日记 2024/7/21 12:47:03

1：1公有云能力整体输出，腾讯云“七剑”下云端

【全球云观察 ｜ 科技热点关注】曾几何时，云计算技术的兴起，为千行万业的数字化创新带来了诸多新机遇，同时也催生了新产业新业态新模式，激发出高质量发展的科技新动能。很显然，如今的云创新已成为高质量发…...

编程日记 2024/7/21 12:43:00

【iOS】APP仿写——网易云音乐

网易云音乐启动页发现定时器控制轮播图UIButtonConfiguration 发现换头像我的总结启动页这里我的启动页是使用Xcode自带的启动功能，将图片放置在LaunchScreen中即可。这里也可以通过定时器控制，来实现启动的效果效果图： 这里放一篇大…...

编程日记 2024/7/21 12:41:59

react 快速入门思维导图

在掌握了react中一下的几个步骤和语法，基本上就可以熟练的使用react了。 1、组件的使用。react创建组件主要是类组件和函数式组件，类组件有生命周期，而函数式组件没有。 2、jsx语法。react主要使用jsx语法，需要使用babel和webpa…...

编程日记 2024/7/21 12:39:57

微软研究人员为电子表格应用开发了专用人工智能LLM

微软的 Copilot 生成式人工智能助手现已成为该公司许多软件应用程序的一部分。其中包括 Excel 电子表格应用程序，用户可以在其中输入文本提示来帮助处理某些选项。微软的一组研究人员一直在研究一种新的人工智能大型语言模型，这种模型是专门为 Excel、Go…...

编程日记 2024/7/21 12:37:54

[算法题]两个链表的第一个公共结点

题目链接: 两个链表的第一个公共结点图示: 两个链表如果长度一致, 那么两人同时一人走一步, 如果存在公共结点, 迟早会相遇, 但是如果长度不一致单存在公共结点, 两人同时一人走一步不会相遇, 此时定义两个变量, node1 和 node2, 这两个变量分别从 x1 和 x2 开始走, 当其走完…...

编程日记 2024/7/21 12:36:53

MySQL事务管理(上)

目录前言 CURD不加控制，会有什么问题？ CURD满足什么属性，能解决上述问题？ 事务什么是事务？ 为什么会出现事务事务的版本支持事务提交方式查看事务提交方式改变 MySQL 的自动提交模式: 事务常见操作方式前…...

编程日记 2024/7/21 12:33:50

HTML2048小游戏

源代码在效果图后面效果图源代码 <!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>2048 Game&l…...

编程日记 2024/7/21 12:30:47

为 android编译 luajit库、交叉编译

时间：20200719 本机环境：iMac2017 macOS11.4 参考: 官方的文档：Use the NDK with other build systems 写在前边：交叉编译跟普通编译类似，无非是利用特殊的编译器、链接器生成动态或静态库; make 本质上是按照 Make…...

编程日记 2024/7/21 12:24:42

【音视频】音频重采样

文章目录前言音频重采样的基本概念音频重采样的原因1. 设备兼容性2. 文件大小和带宽3. 音质优化4. 标准化和规范5. 多媒体同步6. 降低处理负载重采样的注意事项总结前言音频重采样是指将音频文件的采样率转换成另一种采样率的过程。这在音频处理和传输中是一个常见且重要的…...

编程日记 2024/7/21 12:23:41

卷积神经网络学习问题总结

问题一： 深度学习中的损失函数和应用场景回归任务： 均方误差函数（MSE）适用于回归任务，如预测房价、预测股票价格等。 import torch.nn as nn loss_fn nn.MSELoss() 分类任务： 交叉熵损失函数&…...

编程日记 2024/7/21 12:22:40

嵌入式面试总结

C语言中struct和union的区别 struct和union都是常见的复合结构。结构体和联合体虽然都是由多个不同的数据类型成员组成的，但不同之处在于联合体中所有成员共用一块地址空间，即联合体只存放了一个被选中的成员，结构体中所有成员占用空间是累…...

编程日记 2024/7/21 12:20:39

超简单安装指定版本的clickhouse

超简单安装指定版本的clickhouse 命令执行shell脚本 idea连接命令执行参考官网 # 下载脚本 wget https://raw.githubusercontent.com/183461750/doc-record/d988dced891d70b23c153a3bbfecee67902a3757/middleware/data/clickhouse/clickhouse-install.sh # 执行安装脚本(中…...

编程日记 2024/7/21 12:17:35

FlowUs横向对比几款笔记应用的优势所在

FlowUs作为一个本土化的生产力工具，在中国市场的环境下相对于Notion有其独特的优势，尤其是在稳定性和模板适应性方面。尽管Notion在笔记和生产力工具领域享有极高的声誉，拥有着诸多创新功能和强大的生态系统，但它并不一定适合每…...

编程日记 2024/7/21 12:16:34

椭圆曲线密码学(ECC)

一、ECC算法概述椭圆曲线密码学（Elliptic Curve Cryptography）是基于椭圆曲线数学理论的公钥密码系统，由Neal Koblitz和Victor Miller在1985年独立提出。相比RSA，ECC在相同安全强度下密钥更短（256位ECC ≈ 3072位RSA…...

编程新知 2025/10/1 22:26:06

PHP和Node.js哪个更爽?

先说结论，rust完胜。 php：laravel，swoole，webman，最开始在苏宁的时候写了几年php，当时觉得php真的是世界上最好的语言，因为当初活在舒适圈里，不愿意跳出来，就好比当初活在…...

编程新知 2025/9/14 7:59:52

23-Oracle 23 ai 区块链表（Blockchain Table）

小伙伴有没有在金融强合规的领域中遇见，必须要保持数据不可变，管理员都无法修改和留痕的要求。比如医疗的电子病历中，影像检查检验结果不可篡改行的，药品追溯过程中数据只可插入无法删除的特性需求；登录日志、修改日志…...

编程新知 2026/1/27 3:40:30

《用户共鸣指数（E）驱动品牌大模型种草：如何抢占大模型搜索结果情感高地》

在注意力分散、内容高度同质化的时代，情感连接已成为品牌破圈的关键通道。我们在服务大量品牌客户的过程中发现，消费者对内容的“有感”程度，正日益成为影响品牌传播效率与转化率的核心变量。在生成式AI驱动的内容生成与推荐环境中&#xff0…...

编程新知 2026/2/2 1:48:09

Python爬虫（二）：爬虫完整流程

爬虫完整流程详解（7大核心步骤实战技巧） 一、爬虫完整工作流程以下是爬虫开发的完整流程，我将结合具体技术点和实战经验展开说明： 1. 目标分析与前期准备网站技术分析： 使用浏览器开发者工具（F12&…...

编程新知 2025/10/19 5:48:51

【git】把本地更改提交远程新分支feature_g

创建并切换新分支 git checkout -b feature_g 添加并提交更改 git add . git commit -m “实现图片上传功能” 推送到远程 git push -u origin feature_g...

编程新知 2025/12/13 4:20:30

鱼香ros docker配置镜像报错：https://registry-1.docker.io/v2/

使用鱼香ros一件安装docker时的https://registry-1.docker.io/v2/问题一键安装指令 wget http://fishros.com/install -O fishros && . fishros出现问题：docker pull 失败网络不同，需要使用镜像源按照如下步骤操作 sudo vi /etc/docker/dae…...

编程新知 2025/12/31 6:28:08

【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分

一、项目背景回顾前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。本弹重点聚焦于服务端的模块划分与架构设计，提升代码结构的可维护性与扩展性。二、服务端模块设计目标高内聚低耦合：各模块职责清晰，便于独立开发…...

编程新知 2025/10/13 4:15:41

听写流程自动化实践，轻量级教育辅助

随着智能教育工具的发展，越来越多的传统学习方式正在被数字化、自动化所优化。听写作为语文、英语等学科中重要的基础训练形式，也迎来了更高效的解决方案。这是一款轻量但功能强大的听写辅助工具。它是基于本地词库与可选在线语音引擎构建，…...

编程新知 2026/1/30 1:47:17

QT3D学习笔记——圆台、圆锥

类名作用Qt3DWindow3D渲染窗口容器QEntity场景中的实体（对象或容器）QCamera控制观察视角QPointLight点光源QConeMesh圆锥几何网格QTransform控制实体的位置/旋转/缩放QPhongMaterialPhong光照材质（定义颜色、反光等）QFirstPersonC…...

编程新知 2026/1/29 5:26:37