当前位置: 首页 > news >正文

BLIP2预研笔记

0. 前言

文章是公司内部分享学习写的预研报告,里面有小部分文段是直接从网上借鉴的,侵删

1. 任务和方法历史进化:

  • 在大模型等类似的预训练模型的方式(以包含“预训练阶段”等n阶段训练方式为特色)为主流之前,以前通常把“从图片到文字”的多模态的任务进行了细致的划分:

如:图片描述任务/看图说话任务(Image Caption)、视觉问答任务(Visual Question Answering,VQA)等等;

在大模型的技术路线成为主流后,由于预训练阶段不区分具体的细分任务,而是完成了A模态分布到B模态分布的理解和映射,因此现在普遍统称为图生文任务(image2text);

  • 以往针对单一任务,一般流行end2end的网络;近期借助于NLP的发展,利用大模型既有的对自然语言的理解能力和知识,衍生了一些基于LLM模型能力之上的方法,如ALBEF、BLIP、CLIP等。如BLIP是freeze住LLM的参数,只训练特定部分的网络(而不是以前流行的那种end2end方式)

(以前之所以被“e2e”思想统治,是因为以前的网络大家发现e2e训练出来的结果比多stage训练的结果好太多了;而好太多的原因有很多,举几个个人的经验:

  1. 数据量没到训练LLM这个规模,再好的architecture都无法很好的学习到分布&在高维空间的有效解耦;
  2. 以前有大量网络也是尝试过encoder-decoder的结构,但不敢打断分开训练encoder和decode的原因是中间的象征knowledge/memory/code(这些是不同论文里对中间这个bottleneck的称呼)的bottleneck对数据的抽取并不足够有效;换句话说,虽然在论文里对这个提取出来的array叫做knowledge,但它没有资格被叫做“knowledge”;有些论文中或者说很多算法工程师一些具体的实验中都发现了类似的问题,但因为pipeline通常都定下来了,对“经过bottleneck出现信息缺失”等问题的尝试修复也只是一些“小巧思”,比如加多一个MLP用作简单的attention网络来对knowledge有更好的提取,等等。
  3. 预训练中经过特别设计后的任务和损失函数,辅助有效地训练了庞大的基座模型;如BEiT中训练阶段设计了一个MIM(masked image modeling)的预训练任务,基于损坏的图像patch恢复原始视觉token;但BEiT用于的细分任务如图像分割,就与MIM任务毫无关系;
  4. 架构上比起之前的e2e思想统治时期的模型架构应该要优秀一些(这个是我的猜测,目前相关的研究还有很多,有些在研究模型搞这么大究竟会不会带来更多的坏处,e.g.最近有一篇文章认为LLM纯靠“死记硬背”)),例如现在的pretrain+finetune的方式在预训练阶段会设计不同的任务固定不同部分的模型参数分别进行训练。

2. BLIP的架构是从ALBEF改动而来:

ALBEF架构

BLIP(Bootstrapping Language-Image Pretraining):为什么叫Bootstrapping,是因为训练数据来自网络图文对,包含大量噪声,所以增加了一个在线数据打标签和清理的任务,把处理好的数据继续用来迭代原模型。

BLIP1架构

BLIP2架构

3. BLIP的这种架构来做图生文任务,相比于以前流行的框架(通常为end2end):

3.1 数据集标注/模型输入输出:

  • 传统图生文任务要求有人工标注,标注过程如下:

给一张图片,如:

标注人员1会打上标签一个小孩在骑马”;

标注人员2会打上标签小孩在马上训练马术”;

标注人员3会打上标签“身穿马术服的小孩在白色的马上

不同的标注人员对图片的描述语句的方式不一样,有的会描述一件事、有的会描述具体的专业词汇、有的会强调位置关系;训练过程中对这些不同的groundtruth用比较宽松的策略都训进去,能提升模型输出表达的兼容能力。

  • BLIP提出的CapFilt方式:

在BLIP1中提出了CapFilt方式可以优化传统的图片描述标签;在BLIP2中引入了LLM的能力,大幅提升了对图片的描述能力。

3.2 训练方式:

  • 传统的end2end方式一次性训练完,没有预训练阶段和微调阶段的区分

1)end2end方式不能很好的训练多分支或者规模较大的模型

2)end2end方式的训练成本较高

  • BLIP为代表的Pretrain+Finetune的方式,对各个部位分开训练

1)成本较低

2)利用了大模型的能力,节省了标注成本和时间

5. 项目分享:clip_interrogator

5.1 clip_interrogator 1

CLIP Interrogator - a Hugging Face Space by pharmapsychotic

5.2 clip_interrogator 2.1 

CLIP Interrogator 2 - a Hugging Face Space by fffiloni

5.3 对ComfyUI框架写了个移植的clip_interrogator的插件

unanan/ComfyUI-clip-interrogator: Unofficial ComfyUI custom nodes of clip-interrogator (github.com)

5.4 另一个利用stable diffusion的Image2text项目:WD14

WaifuDiffusion v1.4 Tags - a Hugging Face Space by SmilingWolf

相关文章:

BLIP2预研笔记

0. 前言 文章是公司内部分享学习写的预研报告,里面有小部分文段是直接从网上借鉴的,侵删 1. 任务和方法历史进化: 在大模型等类似的预训练模型的方式(以包含“预训练阶段”等n阶段训练方式为特色)为主流之前&#xf…...

安卓开发问题:安卓Ble出现动态鉴权失败以及扫描设备一直进入不了的问题

问题1描述 1、安卓12需要动态鉴权 // 鉴权函数 requestPermissions(permissionsList.toArray(strings), MyConstants.REQUEST_CODE_PERMISSIONS);但是在鉴权回调函数中如Manifest.permission.BLUETOOTH_SCAN、Manifest.permission.BLUETOOTH_CONNECT一直显示失败&…...

DSP ARM FPGA 实验箱_音频处理_滤波操作教程:3-9 音频信号的滤波实验

一、实验目的 掌握Matlab辅助设计滤波器系数的方法,并实现音频混噪及IIR滤波器滤除,并在LCD上显示音频信号的FFT计算结果。 二、实验原理 音频接口采用的是24.576MHz(读兆赫兹)晶振,实验板上共有3个音频端口&#x…...

Rust多线程交叉打印+Send Sync特征讲解

导航 Rust多线程交叉打印Send Sync特征讲解 一、Rust多线程交叉打印二、Send Sync 特征讲解 Rust多线程交叉打印Send Sync特征讲解 一、Rust多线程交叉打印 先说背景有两个线程,分别为0号线程和1号线线程两个线程交叉打印共享值,并将共享值1当标志为fa…...

C#爬虫爬取某东商品信息

🏆作者:科技、互联网行业优质创作者 🏆专注领域:.Net技术、软件架构、人工智能、数字化转型、DeveloperSharp、微服务、工业互联网、智能制造 🏆欢迎关注我(Net数字智慧化基地),里面…...

【Stylus详解与引入】

文章目录 Stylus详解与引入一、Stylus简介二、Stylus的特性1. 变量2. 嵌套规则3. 混合(Mixins)4. 函数5. 条件语句和循环 三、Stylus的引入与配置1. 安装Stylus和stylus-loader2. 配置Webpack3. 在Vue项目中使用Stylus4. 编译Stylus代码四、Stylus的性能…...

001 登录(md5加密)

文章目录 pom.xmlLoginController.javaUserMapper.javaUser.javaUserServiceImpl.javaUserService.javaMD5Util.javaMD5UtilTest.javaValidatorUtil.javaLoginVo.javaRespBean.javaRespBeanEnum.javaSeckillApplication.javaUserMapper.xmllogin.htmlapplication.yamlsql 传统方…...

Linux学习笔记5---WSL2编译裸机程序并烧录至SD卡

在用WLS进行开发的时候发现在mnt/底下竟然识别不了U盘!!也识别不了SD卡!!那程序不就不能烧录到SD卡上了???那还开发个锤子。 在网上查找了一些相关资料,发现可以通过Win32DiskImager…...

React 第二十九章 React 和 Vue 描述页面的区别

面试题:React 和 Vue 是如何描述 UI 界面的?有一些什么样的区别? 标准且浅显的回答: React 中使用的是 JSX,Vue 中使用的是模板来描述界面 前端领域经过长期的发展,目前有两种主流的描述 UI 的方案&#xf…...

Dnspy附加进程调试---代码被优化及无法获取局部变量

代码被优化或者无法获取局部变量的效果图如下: 当你在调试的时候,看到这种情况还是挺恼火的,经过查阅资料后,发现可以这种解决: 参考链接:Making an Image Easier to Debug dnSpy/dnSpy Wiki GitHub 假设…...

Redis---------实现更改数据业务,包括缓存更新,缓存穿透雪崩击穿的处理

三种更新策略 内存淘汰是Redis内存的自动操作,当内存快满了就会触发内存淘汰。超时剔除则是在存储Redis时加上其有限期(expire),有限期一过就会自动删除掉。而主动更新则是自己编写代码去保持更新,所以接下来研究主动更新策略。 主动更新策略…...

蓝牙小车的具体实现

title: 蓝牙小车开发时的一些细节 cover: >- https://tse1-mm.cn.bing.net/th/id/OIP-C.BrSgB91U1MPHGyaaZEqcbwHaEo?w273&h180&c7&r0&o5&dpr1.3&pid1.7 abbrlink: 842d5faf date: tags: #小车基本运动之最重要的—PWM ##1.PWM(Pulse …...

污染修复乙级设计资质中关于设计成果保护的规定

关于污染修复乙级设计资质中设计成果的保护,虽然直接针对该资质的设计成果保护规定可能未在公开资料中有详细阐述,但根据中国知识产权法律体系和行业惯例,设计成果作为智力成果的一部分,主要受以下几个方面的法律保护:…...

##10 卷积神经网络(CNN):深度学习的视觉之眼

文章目录 前言1. CNN的诞生与发展2. CNN的核心概念3. 在PyTorch中构建CNN4. CNN的训练过程5. 应用:使用CNN进行图像分类5. 应用:使用CNN进行时序数据预测代码实例7. 总结与展望前言 在深度学习的领域中,卷积神经网络(CNN)已经成为视觉识别任务的核心技术。自从AlexNet在2…...

Linux下添加自己的服务脚本(service)

systemd服务文件(service file)是用来定义和配置systemd服务的文件,通常以.service为后缀。以下是service文件的详细格式和内容说明: 1 文件路径 /etc/systemd/system(供系统管理员和用户使用)系统服务,开机不需要登录就能运行的程序/usr/lib/systemd/system(供发行版…...

C++:内存管理

C:内存管理 一、C/C内存分布二、C语言中动态内存管理方式:malloc/calloc/realloc/free三、C内存管理方式1.new/delete操作内置类型2.new和delete操作自定义类型 四、operator new与operator delete函数(重点)五、new和delete的实现原理1.内置…...

Veeam - 数据保护和管理解决方案_Windows平台部署备份还原VMware手册

Veeam - - 数据保护和管理解决方案 Veeam Backup & Replication Console Veeam Data Platform Veeam Backup & Replication是一款强大的虚拟机备份、恢复和复制解决方案 安全备份、干净恢复和数据弹性 — 即时交付 在混合云中随时随地管理、控制、备份和恢复您的所有数…...

易基因:Nature子刊:ChIP-seq等揭示c-di-AMP与DasR互作以调控细菌生长、发育和抗生素合成|项目文章

大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 c-di-AMP是一种在细菌信号中普遍存在且至关重要的核苷酸第二信使,对于大多数c-di-AMP合成生物体来说,c-di-AMP稳态及其信号转导的分子机制非常值得关注。 2024年…...

stm32学习探究:利用TB6612驱动直流电机

在这篇文章中,我们将探讨如何使用STM32微控制器和TB6612FNG直流电机驱动模块来驱动直流电机。TB6612FNG是一款基于MOSFET的H桥集成电路,能够独立双向控制两个直流电机,非常适合用于小型机器人或双轮车等项目。 一、TB6612FNG 驱动模块介绍 …...

SpringBatch快速入门

Job监听 Spring Batch的Job监听是一种机制,用于在Job的不同阶段插入自定义的逻辑。它允许开发人员在Job开始、结束、失败等不同的事件发生时执行特定的操作。 具体来说,Spring Batch提供了以下几个Job监听器: JobExecutionListener&#xff…...

下载Node.js及其他环境推荐nvm

文章目录 项目场景:下载Node.js环境配置配置环境变量 安装脚手架安装依赖安装淘宝镜像安装 cnpm(我需要安装)nvm 安装 Node.js (推荐) 项目场景: 提示:这里简述项目相关背景: 项目…...

STM32 ADC学习

ADC Analog-to-Digital Converter,即模拟/数字转换器 常见ADC类型 分辨率和采样速度相互矛盾,分辨率越高,采样速率越低。 ADC的特性参数 分辨率:表示ADC能辨别的最小模拟量,用二进制位数表示,比如8,10…...

详解AI作画算法原理

在人工智能领域,AI作画技术已经成为一个引人入胜的研究方向。AI作画算法利用机器学习技术,尤其是深度学习,来生成具有艺术性的图像。本文将深入剖析AI作画的基本原理,包括其技术架构、关键组件以及工作流程。 引言 AI作画技术不…...

每日Attention学习3——Cross-level Feature Fusion

模块出处 [link] [code] [PR 23] Cross-level Feature Aggregation Network for Polyp Segmentation 模块名称 Cross-level Feature Fusion (CFF) 模块作用 双级特征融合 模块结构 模块代码 import torch import torch.nn as nnclass BasicConv2d(nn.Module):def __init__(…...

华为eNSP学习—IP编址

IP编址 IP编址子网划分例题展示第一步:机房1的子网划分第二步:机房2的子网划分第三步:机房3的子网划分IP编址 明确:IPv4地址长度32bit,点分十进制的形式 ip地址构成=网络位+主机位 子网掩码区分网络位和主机位 学此篇基础: ①学会十进制与二进制转换 ②学会区分网络位和…...

数据库的要求

本来我是不准备写数据库的。而且是准备从零开始,学习python,学完语言学,会c和写作技法,再来学习数据库 那样做的复杂度是天量的,按部就班什么的具备,因为你完全不清楚什么时候就有这个基础和条件&#xff0…...

Spring MVC(二)

1. 注解RequestMapping修饰类 在Spring MVC中一般都是使用注解RequestMapping来映射请求,也就是通过它来指定控制器可以处理哪些URL请求,相当于Servlet中在web.xml中配置的映射地址作用一致。在上一节的内容中,我们通过注解RequestMapping改进…...

ECP44304T-76是一款增强型通信处理器吗?

ABB ECP44304T-76是一款增强型通信处理器,专为ABB的PLC控制系统设计。 这款通信处理器的主要功能是提供PLC与其他设备或网络之间的通信接口。它支持多种通讯协议,包括但不限于Profibus、Ethernet、Modbus等,使得PLC可以轻松集成到复杂的工业…...

mongoDB分组查询

完整代码 //根据医院编号 和 科室编号 &#xff0c;查询排班规则数据Overridepublic Map<String, Object> getRuleSchedule(long page, long limit, String hoscode, String depcode) {//1 根据医院编号 和 科室编号 查询Criteria criteria Criteria.where("hosco…...

【Java 刷题记录】位运算

位运算 33. 位1的个数 编写一个函数&#xff0c;输入是一个无符号整数&#xff08;以二进制串的形式&#xff09;&#xff0c;返回其二进制表达式中 设置位 的个数&#xff08;也被称为汉明重量&#xff09;。 示例 1&#xff1a; 输入&#xff1a;n 11 输出&#xff1a;3 解释…...

行业资讯平台网站建设/新公司怎么做网络推广

前言这个分类中&#xff0c;将会写写Java中的集合。集合是Java中非常重要而且基础的内容&#xff0c;因为任何数据必不可少的就是该数据是如何存储的&#xff0c;集合的作用就是以一定的方式组织、存储数据。这里写的集合&#xff0c;一部分是比较常见的、一部分是不常用但是我…...

广州哪家做网站好/网站优化方案模板

自动布局之autoresizingMask使用详解&#xff08;Storyboard&Code&#xff09; http://www.cocoachina.com/ios/20141216/10652.html 必须禁用autolayout才能使用autoresizingMask 前言&#xff1a;现在已经不像以前那样只有一个尺寸&#xff0c;现在最少的iPhone开发需要最…...

做网站需要什么学历/介绍网络营销的短文

1、ls命令作用 ls命令用于显示指定工作目录下之内容&#xff08;列出目前工作目录所含之文件及子目录) 2、ls命令结构 drwxr-xr-x 2 root root 4.0K 3月 23 2017 etc “d” 表示文件的类型为目录 “rwx” 表示文件所有者的权限:r是读&#xff0c;w是写&#xff0c;x是…...

中国建设银行网站会员登录/腾讯云域名注册官网

如何为企业量身制定行之有效的考核体系&#xff1f;如何有效激发员工的创业激情&#xff1f;如何通过企业绩效管理助推集团战略落地&#xff1f;阿米巴通过“81”绩效量化技术&#xff0c;解决了“考核什么”和“怎么考核”的技术问题&#xff0c;让员工不但要对过程负责&#…...

php网络公司网站源码/天津网站策划

前言&#xff1a;仅个人小记。 注意到 RSA 中并不要求消息 m 要和模数 n 互素&#xff0c;而 RSA 所依赖的“费马定理&#xff0c;欧拉定理”&#xff0c;仿佛都要要求 m 须和模数 n 互素。这里给出针对 RSA 中 n 为两个素数乘积时的具体解释&#xff0c;实际上应归属于广义的欧…...

视频网站如何做引流/手机百度app最新版下载

兄弟姐妹们好&#xff0c;又是好久没有更新了&#xff0c;今天给大家简单介绍代理模式&#xff0c;一个很简单的设计模式&#xff0c;旨在不改变原对象的情况下通过代理对象来控制对原对象的访问。代理模式根据具体情况还可以分为远程代理、虚拟代理、保护代理等&#xff0c;下…...