当前位置：首页 > news >正文

[Datawhale][CS224W]图机器学习(六)

news 2026/2/8 9:22:40

一、简介

PageRank，又称网页排名、谷歌左侧排名、PR，是Google公司所使用的对其搜索引擎搜索结果中的网页进行排名的一种算法。

佩奇排名本质上是一种以网页之间的超链接个数和质量作为主要因素粗略地分析网页的重要性的算法。其基本假设是：更重要的页面往往更多地被其他页面引用（或称其他页面中会更多地加入通向该页面的超链接）。其将从A页面到B页面的链接解释为“A页面给B页面投票”，并根据投票来源（甚至来源的来源，即链接到A页面的页面）和投票对象的等级来决定被投票页面的等级。简单的说，一个高等级的页面可以提升其他低等级的页面。

二、概述

PageRank是一种链接分析算法，它通过对超链接集合中的元素用数字进行权重赋值，实现“衡量集合范围内某一元素的相关重要性”的目的。该算法可以应用于任何含有元素之间相互引用的情况的集合实体。

PageRank的结果来源于一种基于图论的数学算法。它将万维网上所有的网页视作节点（node），而将超链接视作边（edge），并且考虑到了一些权威的网站，类似CNN。每个节点的权重值表示对应的页面的重要度。通向该网页的超链接称做“对该网页的投票（a vote of support）”。每个网页的权重值大小被递归地定义，依托于所有链接该页面的页面的权重值。例如，一个被很多页面的链接的页面将会拥有较高的权重值（high PageRank）。

三、算法

假设一个由4个网页组成的集合：A，B，C和D。同一页面中多个指向相同的链接视为同一个链接，并且每个页面初始的PageRank值相同，最初的算法将每个网页的初始值设定为1。但是在后来的版本以及下面的示例中，为了满足概率值位于0到1之间的需要，我们假设这个值是0.25。

在每次迭代中，给定页面的PR值（PageRank值）将均分到该页面所链接的页面上。

如果所有页面都只链接至A，那么A的PR值将是B，C及D的PR值之和，即：

$PR (A) = PR (B) + PR (C) + PR (D)$

重新假设B链接到A和C，C链接到A，并且D链接到A,B,C。最初一个页面总共只有一票。所以B给A ,C每个页面半票。以此类推，D投出的票只有三分之一加到了A的PR值上：

$PR(A)=PR(B)2+PR(C)1+PR(D)3PR(A)={\frac {PR(B)}{2}}+{\frac {PR(C)}{1}}+{\frac {PR(D)}{3}}$

换句话说，算法将根据每个页面连出总数 $L (X)$ 平分该页面的PR值，并将其加到其所指向的页面：

$PR(A)=PR(B)L(B)+PR(C)L(C)+PR(D)L(D)PR(A)={\frac {PR(B)}{L(B)}}+{\frac {PR(C)}{L(C)}}+{\frac {PR(D)}{L(D)}}$

或者

PR(A) 是页面A的PR值
PR(Ti)是页面Ti的PR值，在这里，页面Ti是指向A的所有页面中的某个页面
C(Ti)是页面Ti的出度，也就是Ti指向其他页面的边的个数
d 为阻尼系数，其意义是，在任意时刻，用户到达某页面后并继续向后浏览的概率，

该数值是根据上网者使用浏览器书签的平均频率估算而得，通常d=0.85

最后，所有这些PR值被换算成百分比形式再乘上一个修正系数 $d$ 。由于“没有向外链接的网页”传递出去的PR值会是0，而这会递归地导致指向它的页面的PR值的计算结果同样为零，所以赋给每个页面一个最小值 $(1 - d) / N$ （N为页面的总数）

$PR(A)=(PR(B)L(B)+PR(C)L(C)+PR(D)L(D)+⋯)d+1−dNPR(A)=\left({\frac {PR(B)}{L(B)}}+{\frac {PR(C)}{L(C)}}+{\frac {PR(D)}{L(D)}}+\,\cdots \right)d+{\frac {1-d}{N}}$

需要注意的是，在Sergey Brin和Lawrence Page的1998年原版论文中给每一个页面设定的最小值是 $1 - d$ ，而不是这里的 $(1 - d) / N$ ，这将导致集合中所有网页的PR值之和为N（N为集合中网页的数目）而非所期待的1。

因此，一个页面的PR值直接取决于指向它的的页面。如果在最初给每个网页一个随机且非零的PR值，经过重复计算，这些页面的PR值会趋向于某个定值，也就是处于收敛的状态，即最终结果。这就是搜索引擎使用该算法的原因。

那么什么时候，迭代结束哪？一般要设置收敛条件：比如上次迭代结果与本次迭代结果小于某个误差，我们结束程序运行；比如还可以设置最大循环次数。

四、PageRank的缺点

PageRank算法的主要缺点在于旧的页面的排名往往会比新页面高。因为即使是质量很高的新页面也往往不会有很多外链，除非它是某个已经存在站点的子站点。这也是PageRank需要多项算法结合以保证其结果的准确性的原因。

五、Python实现迭代法

下面仅仅实现迭代法，代码如下，需要用到Python的numpy库用于矩阵乘法：

# 输入为一个*.txt文件，例如
# A B
# B C
# B A
# ...表示前者指向后者import numpy as npif __name__ == '__main__':# 读入有向图，存储边f = open('input_1.txt', 'r')edges = [line.strip('\n').split(' ') for line in f]print(edges)# 根据边获取节点的集合nodes = []for edge in edges:if edge[0] not in nodes:nodes.append(edge[0])if edge[1] not in nodes:nodes.append(edge[1])print(nodes)N = len(nodes)# 将节点符号（字母），映射成阿拉伯数字，便于后面生成A矩阵/S矩阵i = 0node_to_num = {}for node in nodes:node_to_num[node] = ii += 1for edge in edges:edge[0] = node_to_num[edge[0]]edge[1] = node_to_num[edge[1]]print(edges)# 生成初步的S矩阵S = np.zeros([N, N])for edge in edges:S[edge[1], edge[0]] = 1print(S)# 计算比例：即一个网页对其他网页的PageRank值的贡献，即进行列的归一化处理for j in range(N):sum_of_col = sum(S[:,j])for i in range(N):S[i, j] /= sum_of_colprint(S)# 计算矩阵Aalpha = 0.85A = alpha*S + (1-alpha) / N * np.ones([N, N])print(A)# 生成初始的PageRank值，记录在P_n中，P_n和P_n1均用于迭代P_n = np.ones(N) / NP_n1 = np.zeros(N)e = 100000  # 误差初始化k = 0   # 记录迭代次数print('loop...')while e > 0.00000001:   # 开始迭代P_n1 = np.dot(A, P_n)   # 迭代公式e = P_n1-P_ne = max(map(abs, e))    # 计算误差P_n = P_n1k += 1print('iteration %s:'%str(k), P_n1)print('final result:', P_n)

输入的input_1.txt文本内容为：

A B
A C
A D
B D
C E
D E
B E
E A

结果为：

最后的一个数组，分别为A, B, C, D, E的PageRank值，其中E最高， A第二高， B和C相同均最低。

参考文献

[1] PageRank算法原理与实现

[2] 数据挖掘十大算法（六）：PageRank算法原理与Python实现

[3] PageRank 维基百科，自由的百科全书

[4] 斯坦福CS224W图机器学习、图神经网络、知识图谱【同济子豪兄】

[Datawhale][CS224W]图机器学习(六)

目录一、简介二、概述三、算法四、PageRank的缺点五、Python实现迭代法参考文献一、简介 PageRank，又称网页排名、谷歌左侧排名、PR，是Google公司所使用的对其搜索引擎搜索结果中的网页进行排名的一种算法。佩奇排名本质上是一种以网页之间的超链接个…...

编程日记 2023/2/27 10:07:41

aws ecr 使用golang实现的简单镜像转换工具

https://pkg.go.dev/github.com/docker/docker/client#section-readme 通过golang实现一个简单的镜像下载工具总体步骤启动一台海外区域的ec2实例安装docker和awscli配置凭证访问国内ecr仓库编写web服务实现镜像转换和自动推送安装docker和awscli sudo yum remove awsc…...

编程日记 2023/2/27 10:06:30

【20230225】【剑指1】分治算法（中等）

1.重建二叉树class Solution { public:TreeNode* traversal(vector<int>& preorder,vector<int>& inorder){if(preorder.size()0) return NULL;int rootValuepreorder.front();TreeNode* rootnew TreeNode(rootValue);//int rootValuepreorder[0];if(preo…...

编程日记 2023/2/27 10:05:15

「JVM 高效并发」Java 线程

进程是资源分配（内存地址、文件 I/O 等）的基本单位，线程是执行调度（处理器资源调度）的基本单位； Loom 项目若成功为 Java 引入纤程（Fiber），则线程的执行调度单位可能变为…...

编程日记 2023/2/27 10:03:01

ADAS-可见光相机之Cmos Image Sensor

引言 “ 可见光相机在日常生活、工业生产、智能制造等应用有着重要的作用。在ADAS中更是扮演着重要的角色，如tesla model系列全车身10多个相机，不断感知周围世界。本文着重讲解下可见光相机中的CIS(CMOS Image Sensor)。” 定义光是一种电磁波&…...

编程日记 2023/2/27 10:01:49

【ESP 保姆级教程】玩转emqx MQTT篇③ ——封装 EmqxIoTSDK，快速在项目集成

忘记过去，超越自己 ❤️ 博客主页单片机菜鸟哥，一个野生非专业硬件IOT爱好者 ❤️❤️ 本篇创建记录 2023-02-26 ❤️❤️ 本篇更新记录 2023-02-26 ❤️🎉 欢迎关注 🔎点赞 👍收藏 ⭐️留言📝🙏 此博客均由博主单独编写，不存在任何商业团队运营，如发现错误，请…...

编程日记 2023/2/27 10:00:34

Python自动化测试面试题-编程篇

前言随着行业的发展，编程能力逐渐成为软件测试从业人员的一项基本能力。因此在笔试和面试中常常会有一定量的编码题，主要考察以下几点。基本编码能力及思维逻辑基本数据结构（顺序表、链表、队列、栈、二叉树）基本算法&#xf…...

编程日记 2023/2/27 9:59:24

CIT 594 Module 7 Programming AssignmentCSV Slicer

CIT 594 Module 7 Programming Assignment CSV Slicer In this assignment you will read files in a format known as “comma separated values” (CSV), interpret the formatting and output the content in the structure represented by the file. Q1703105484 Learning …...

编程日记 2023/2/27 9:58:11

链路追踪——【Brave】第一遍小结

前言微服务链路追踪系列博客，后续可能会涉及到Brave、Zipkin、Sleuth内容的梳理。 Brave 何为Brave？ github地址：https://github.com/openzipkin/brave Brave是一个分布式追踪埋点库。 #mermaid-svg-riwF9nbu1AldDJ7P {font-family:"…...

编程日记 2023/2/27 9:57:01

Vision Transformer（ViT）

1. 概述 Transformer[1]是Google在2017年提出的一种Seq2Seq结构的语言模型，在Transformer中首次使用Self-Atttention机制完全代替了基于RNN的模型结构，使得模型可以并行化训练，同时解决了在基于RNN模型中出现了长距离依赖问题，因…...

编程日记 2023/2/27 9:55:50

104-JVM优化

JVM优化为什么要学习JVM优化： 1：深入地理解 Java 这门语言我们常用的布尔型 Boolean，我们都知道它有两个值，true 和 false，但你们知道其实在运行时，Java 虚拟机是没有布尔型 Boolean 这种类型的&#x…...

编程日记 2023/2/27 9:54:31

QML 颜色表示法

作者：一去、二三里个人微信号： iwaleon 微信公众号：高效程序员如果你经常需要美化样式（最常见的有：文本色、背景色、边框色、阴影色等），那一定离不开颜色。而在 QML 中，颜色的表示方法有多种：颜色名、十六进制颜色值、颜色相关的函数，一起来学习一下吧。老规矩…...

编程日记 2023/2/27 9:53:19

基础数据结构--线段树(Python版本）

文章目录前言特点操作数据存储updateLazy下移查询实现前言月末了，划个水，赶一下指标（更新一些活跃值，狗头） 本文主要是关于线段树的内容。这个线段树的话，主要是适合求解我们一个数组的一些区间的问题&am…...

编程日记 2023/2/27 9:52:10

【micropython】SPI触摸屏开发

背景：最近买了几块ESP32模块，看了下mircopython支持还不错，所以买了个SPI触摸屏试试水，记录一下使用过程。硬件相关：SPI触摸屏使用2.4寸屏幕，常见淘宝均可买到，驱动为ILI9341，具体参…...

编程日记 2023/2/27 9:51:03

【云原生】k8s中Pod进阶资源限制与探针

一、Pod 进阶 1、资源限制当定义 Pod 时可以选择性地为每个容器设定所需要的资源数量。最常见的可设定资源是 CPU 和内存大小，以及其他类型的资源。当为 Pod 中的容器指定了 request 资源时，调度器就使用该信息来决定将 Pod 调度到哪个节点上。当还…...

编程日记 2023/2/27 9:49:53

AI - stable-diffusion(AI绘画)的搭建与使用

最近 AI 火的一塌糊涂，除了 ChatGPT 以外，AI 绘画领域也有很大的进步，以下几张图片都是 AI 绘制的，你能看出来么？ 一、环境搭建上面的效果图其实是使用了开源的 AI 绘画项目 stable-diffusion 绘制的，这是…...

编程日记 2023/2/27 9:48:44

应用场景五：西门子PLC通过Modbus协议连接DCS系统

应用描述： 西门子PLC（S7200/300/400/200SMART）通过桥接器可以支持ModbusRTU串口和ModbusTCP以太网（有线和无线WIFI同时支持）两种通讯方式连接DCS系统，不需要编程PLC通讯程序，直接在模块中进行地…...

编程日记 2023/2/27 9:47:35

我继续问了ChatGPT关于SAP顾问职业发展前景的问题，大家感受一下

目录 SAP 顾问跟其他IT工作收入情况相比是怎么样的？ 如何成为SAP FICO 优秀的顾问要想成为SAP FICO 优秀的顾问 ，需要ABA开发技能吗 SAP 顾问中哪个类型收入最多？ 中国的ERP软件能够取代SAP吗？ 今天我继续撩 ChatGPT。随便问…...

编程日记 2023/2/27 9:46:25

Python小白入门---00开篇介绍(简单了解一下)

Python 小白入门系列教程第一部分：Python 基础介绍 Python 编程语言安装 Python 环境变量和数据类型运算符和表达式控制流程语句函数和模块异常处理第二部分：Python 标准库和常用模块 Python 标准库简介文本处理和正则表达式文件操作和目录操作时…...

编程日记 2023/2/27 9:45:16

【算法基础】C++STL容器

一、Vector 1. 初始化（定义）（1）vector最基本的初始化： vector <int> a;（2）定义长度为10的vector： vector <int> a(10);（3）定义长度为10的vector，并且把所有元素都初始化为-3： vector <int...

编程日记 2023/2/27 9:44:09

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周，有很多同学在写期末Java web作业时，运行tomcat出现乱码问题，经过多次解决与研究，我做了如下整理： 原因： IDEA本身编码与tomcat的编码与Windows编码不同导致，Windows 系统控制台…...

编程新知 2026/2/8 4:37:39

[特殊字符] 智能合约中的数据是如何在区块链中保持一致的？

🧠 智能合约中的数据是如何在区块链中保持一致的？ 为什么所有区块链节点都能得出相同结果？合约调用这么复杂，状态真能保持一致吗？本篇带你从底层视角理解“状态一致性”的真相。一、智能合约的数据存储在哪里&#xf…...

编程新知 2025/10/25 17:23:41

【Linux】shell脚本忽略错误继续执行

在 shell 脚本中，可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行，可以在脚本开头添加 set e 命令来取消该设置。举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令，并忽略错误 rm somefile…...

编程新知 2025/9/11 15:27:32

【JavaEE】-- HTTP

1. HTTP是什么？ HTTP（全称为"超文本传输协议"）是一种应用非常广泛的应用层协议，HTTP是基于TCP协议的一种应用层协议。应用层协议：是计算机网络协议栈中最高层的协议，它定义了运行在不同主机上…...

编程新知 2026/1/26 21:34:05

3.3.1_1 检错编码（奇偶校验码）

从这节课开始，我们会探讨数据链路层的差错控制功能，差错控制功能的主要目标是要发现并且解决一个帧内部的位错误，我们需要使用特殊的编码技术去发现帧内部的位错误，当我们发现位错误之后，通常来说有两种解决方案。第一…...

编程新知 2026/1/30 3:28:14

Java - Mysql数据类型对应

Mysql数据类型java数据类型备注整型INT/INTEGERint / java.lang.Integer–BIGINTlong/java.lang.Long–––浮点型FLOATfloat/java.lang.FloatDOUBLEdouble/java.lang.Double–DECIMAL/NUMERICjava.math.BigDecimal字符串型CHARjava.lang.String固定长度字符串VARCHARjava.lang…...

编程新知 2025/12/14 11:45:25

PL0语法，分析器实现！

简介 PL/0 是一种简单的编程语言，通常用于教学编译原理。它的语法结构清晰，功能包括常量定义、变量声明、过程（子程序）定义以及基本的控制结构（如条件语句和循环语句）。 PL/0 语法规范 PL/0 是一种教学用的小型编程语言，由 Niklaus Wirth 设计，用于展示编译原理的核…...

编程新知 2026/1/29 17:06:33

HTML前端开发：JavaScript 常用事件详解

作为前端开发的核心，JavaScript 事件是用户与网页交互的基础。以下是常见事件的详细说明和用法示例： 1. onclick - 点击事件当元素被单击时触发（左键点击） button.onclick function() {alert("按钮被点击了！&…...

编程新知 2025/11/10 10:45:11

SiFli 52把Imagie图片，Font字体资源放在指定位置，编译成指定img.bin和font.bin的问题

分区配置 (ptab.json) img 属性介绍： img 属性指定分区存放的 image 名称，指定的 image 名称必须是当前工程生成的 binary 。如果 binary 有多个文件，则以 proj_name:binary_name 格式指定文件名， proj_name 为工程名&…...

编程新知 2026/1/23 10:51:19

基于PHP的连锁酒店管理系统

有需要请加文章底部Q哦可远程调试基于PHP的连锁酒店管理系统一介绍连锁酒店管理系统基于原生PHP开发，数据库mysql，前端bootstrap。系统角色分为用户和管理员。技术栈 phpmysqlbootstrapphpstudyvscode 二功能用户 1 注册/登录/注销 2 个人中…...

编程新知 2026/1/31 6:20:15

目录