当前位置：首页 > news >正文

CLIP Surgery论文阅读

news 2026/2/7 20:35:04

CLIP Surgery for Better Explainability with Enhancement in Open-Vocabulary Tasks（CVPR2023）

$M=\operatorname{norm}\left(\operatorname{resize}\left(\operatorname{reshape}\left(\frac{\boldsymbol{F}_{\bar{i}}}{\left\|\boldsymbol{F}_{\underline{i}}\right\|_{2}} \cdot\left(\frac{\boldsymbol{F}_{t}}{\left\|\boldsymbol{F}_{\underline{t}}\right\|_{2}}\right)^{\top}\right)\right)\right)$
重点是CLIP的图可视化，上面是CLIP Surgery可视化Similarity map的公式

贡献：

1.发现CLIP可视化结果（相似度图）和人的感知是反的，集中在背景（flatten transformer做q可视化，集中在前景
），认为是QK self-attention导致，最相似的token并不是本身或者相同语义区域，而是一些背景的噪声。而用vv attention就不会出现错误的关联。出现这种情况的原因主要是训练的pooling不合适,提出了CLIP Architecture Surgery，如模型图所示

$\begin{array}{l} \hat{x}_{i+1}=\left\{\begin{array}{ll} \text { None } & i<d \\ f_{\text {attn }}\left(x_{i},\left\{\phi_{v}\right\}\right)+x_{i} & i=d, \\ f_{\text {attn } n_{v}}\left(x_{i},\left\{\phi_{v}\right\}\right)+\hat{x}_{i} & i>d \end{array}, \forall T \& A\right. \\ x_{i+1}=\left\{\begin{array}{ll} f_{F F N}\left(x_{i}^{\prime}\right)+x_{i}^{\prime}, \text { s.t. } & \\ x_{i}^{\prime}=f_{a t t n_{q k}}\left(x_{i},\left\{\phi_{q}, \phi_{k}, \phi_{v}\right\}\right)+x_{i} & , \forall T \& A \\ f_{\text {res }}\left(x_{i}\right)+x_{i} & , \forall R e s \end{array}\right. \\ \end{array}$

2.发现CLIP可视化有非常多的噪声响应
请添加图片描述
算取一个冗余特征，多类的情况显著的类会影响其他的类（带偏了）。所以我们用类之间的分数作为权重，对每个特征做类别的加权，来抑制显著类的影响。然后在类别维度（Nt，text token的数量）求均值作为冗余特征，并对每个特征减去冗余特征，然后求和得到余弦相似度。对于单个类来说，如交互式分割和多模态可视化，则用空文本特征作为冗余特征（知乎上看到这句话才明白，看的一脸懵逼）。category dimension 是(Nt)

具体如下：

先算出multiplied features[Ni，Nt，C]： $F_m=\frac{\hat{F}_i}{\|\hat{F}_i\|_2}\odot\frac{\hat{F}_t}{\|\hat{F}_t\|_2}$

沿C方向做逐元素乘法

再算similarity score[1，Nt]： $s=softmax(\frac{F_c}{\|F_c\|_2}\cdot(\frac{F_t}{\|F_t\|_2})^\top\cdot\tau)$

[CLS]乘token[Nt，C]算相似度

再算category weight[1，Nt]： $w=\frac s{mean(s)}$
再算冗余特征common and redundant features[Ni，1，C]： $F_r=mean(F_m\odot expand(w))\mathrm{~}$

沿C方向做，空文本相似度最大的？

最后算common and redundant features[Ni，Nt]： $S=sum(F_m-expand(F_r))~$ （去掉冗余特征）

模型

不参与训练，只在推理
请添加图片描述

实验

错误的self-attention也能解释为什么有人删掉CLIP中ResNet的最后一个self-attention可以做可视化。但是ViT每层都是self-attention，所以现有的方法在ViT上表现很差(全是self-attention删最后一层没用)

开放多标签分类
除此之外我们的算法做open-vocabulary的多标签分类也有效果，可以作为一种后处理任意插到算法里面来提高mAP。原理是抑制冗余特征后会让误报少一些。注意，单类没有效果，因为冗余特征是一个common bias，不改变单张图别之间的位次，而是影响跨图之间的排位来减少误报

请添加图片描述
多模态可解释性
做了多模态的可解释性，解释CLIP训练过程中文本和图片是怎么匹配的，也发现了一些有趣的现象。比如CLIP训练数据一般关注部分物体，如第一张图片只关注了自行车。而且CLIP对文本也有一定的感知，如最后一张。对于文本的解释，一些不重要的词如 ‘in’ ‘the’ ‘.’ 也经常也有高响应，而且结束符[end]是最高频的。这说明clip会把全局特征编码到固定的token中。
请添加图片描述

ref

https://www.zhihu.com/question/595372017

CLIP Surgery论文阅读

CLIP Surgery for Better Explainability with Enhancement in Open-Vocabulary Tasks（CVPR2023）

贡献：

模型

实验

ref

相关文章：

CLIP Surgery论文阅读

Luancher和unityLibrary都有build.gradle有什么不同

【Unity】2D角色跳跃控制器

Gradle vs Maven

Linux认证 | RHCA是什么等级的证书？考到工资能有多少？

SQLite System.Data.SQLite和sqlite-net-pcl之间的区别

【Leetcode】【消失的数字】【C语言】

在Linux中安装宝塔面板

数据结构 - 全貌总结

淘宝API商品详情接口丨关键词搜索接口丨用户评论接口丨淘宝销量接口

Android开机动画启动流程

react_13

vscode git提交

LangChain+LLM实战---实用Prompt工程讲解

虚拟机备份中的CBT技术

云服务器哪家便宜靠谱 | 简单了解亚马逊云科技发展史

【LeetCode】每日一题 2023_11_6 最大单词长度乘积

【小白专用】PHP中的JSON转换操作指南 23.11.06

Web3游戏的十字路口：沿用传统IP还是另起炉灶？

【系统架构设计】架构核心知识：4 系统可靠性分析与设计

AI-调查研究-01-正念冥想有用吗？对健康的影响及科学指南

设计模式和设计原则回顾

TDengine 快速体验（Docker 镜像方式）

【网络安全产品大调研系列】2. 体验漏洞扫描

测试markdown--肇兴

MySQL 8.0 OCP 英文题库解析（十三）

uniapp中使用aixos 报错

大学生职业发展与就业创业指导教学评价

2023赣州旅游投资集团

Typeerror: cannot read properties of undefined (reading ‘XXX‘)