当前位置：首页 > news >正文

【注意力MHA,MQA,GQA,MLA】

news 2026/2/8 6:17:02

注意力机制优化简明图解

1. 多头注意力（MHA）

图示：

Input --> [Attention Head 1]--> [Attention Head 2]--> [Attention Head 3]--> ...--> [Attention Head N]--> [Concatenate] --> Output

公式：

$\text{Output} = \text{Concat}(\text{head}_1, \text{head}_2, \ldots, \text{head}_N)$
$\text{head}_i = \text{Attention}(Q, K, V)$

2. 多查询注意力（MQA）

图示：

Input --> [Shared Keys & Values]--> [Attention Head 1]--> [Attention Head 2]--> [Attention Head 3]--> ...--> [Concatenate] --> Output

公式：
$\text{Output} = \text{Concat}(\text{head}_1, \text{head}_2, \ldots, \text{head}_N)$
$\text{head}_i = \text{Attention}(Q, K_{\text{shared}}, V_{\text{shared}})$

3. 分组查询注意力（GQA）

图示：

Input --> [Attention Group 1]--> [Attention Group 2]--> ...--> [Concatenate] --> Output

公式：
$\text{Output} = \text{Concat}(\text{group}_1, \text{group}_2, \ldots, \text{group}_M)$
$\text{group}_j = \text{Attention}(Q_{\text{group}_j}, K_{\text{group}_j}, V_{\text{group}_j})$

4. 多头潜在注意力（MLA）

图示：

Input --> [Compressed Keys & Values]--> [Attention Head 1]--> [Attention Head 2]--> [Attention Head 3]--> ...--> [Concatenate] --> Output

公式：
$\text{Output} = \text{Concat}(\text{head}_1, \text{head}_2, \ldots, \text{head}_N)$
$\text{head}_i = \text{Attention}(Q, K_{\text{compressed}}, V_{\text{compressed}})$

低秩键值联合压缩公式：

$K_{\text{compressed}} = U_K \cdot S_K \cdot V_K^T$
$V_{\text{compressed}} = U_V \cdot S_V \cdot V_V^T$

图示概述

MHA： 每个头独立操作，最终结果拼接。
MQA： 多个头共享键和值，只计算一次查询，减少计算量。
GQA： 查询分组，每组共享键和值，进一步减少计算量。
MLA： 键和值进行压缩，减少内存和计算需求。

这些方法通过不同的策略优化注意力机制，提高了计算效率，降低了内存消耗，使Transformer模型在实际应用中更加高效。

【注意力MHA,MQA,GQA,MLA】

注意力机制优化简明图解

1. 多头注意力（MHA）

2. 多查询注意力（MQA）

3. 分组查询注意力（GQA）

4. 多头潜在注意力（MLA）

图示概述

相关文章：

【注意力MHA,MQA,GQA,MLA】

《从零开始做个摸鱼小网站! · 序》灵感来源

计算机基础（Windows 10+Office 2016）教程 —— 第5章文档编辑软件Word 2016（上）

短视频矩阵管理系统源码：实现短视频内容全面布局

系统设计中15 个最重要的权衡

12年外贸实战经验，一定对你有帮助！

Linux---进程(3)---进程状态

Drools规则引擎实现停车计费

【python虚拟环境】安装第三方包失败/failed with error code1

DiffusionModel-latent diffusion,VAE,U-Net,Text-encoder

C# form的移植工作

linux防火墙相关命令

实习中学到的一点计算机知识（MP4在企业微信打不开？）

ElasticSearch入门语法基础知识

【C++】C++应用案例-dolphin海豚记账本

Matlab数据处理学习笔记

浏览器中的同源策略、CORS 以及相关的 Fetch API 使用

爬虫 APP 逆向 ---＞粉笔考研

2024河南萌新联赛第（三）场河南大学

回溯法---分割回文串

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

服务器硬防的应用场景都有哪些？

Android Bitmap治理全解析：从加载优化到泄漏防控的全生命周期管理

Java线上CPU飙高问题排查全指南

安宝特方案丨船舶智造的“AR+AI+作业标准化管理解决方案”（装配）

Linux离线（zip方式）安装docker

深入浅出深度学习基础：从感知机到全连接神经网络的核心原理与应用

无人机侦测与反制技术的进展与应用

【无标题】路径问题的革命性重构：基于二维拓扑收缩色动力学模型的零点隧穿理论

AirSim/Cosys-AirSim 游戏开发（四）外部固定位置监控相机