全球搜索引擎网站/网络小说排行榜
视觉和语言模型的交叉导致了人工智能的变革性进步,使应用程序能够以类似于人类感知的方式理解和解释世界。大型视觉语言模型(LVLMs)在图像识别、视觉问题回答和多模态交互方面提供了无与伦比的能力。
MoE-LLaVA利用了“专家混合”策略融合视觉和语言数据,实现对多媒体内容的复杂理解和交互。为增强LVLMs提供了更高效、更有效的解决方案,而不受传统缩放方法的典型限制。
lvlm及其挑战
大型视觉语言模型(LVLMs)代表了人工智能和机器学习领域的重大突破。这些模型旨在理解和解释视觉和语言数据之间复杂的相互作用,从而能够更深入地理解多媒体内容。它们的重要性在于处理和分析大量数据类型的能力,包括图像和文本,这对于图像识别、自然语言处理和自动推理等人工智能应用的进步至关重要。
但是扩展lvlm带来了巨大的挑战。随着这些模型的规模不断扩大,它们需要的计算资源也呈指数级增长。这种规模和复杂性的增加导致更高的成本和更大的能源消耗。更大的模型可能变得更容易出错和效率低下,因为管理和训练它们变得越来越困难。
MoE-LLaVA
MoE-LLaVA,即大型视觉语言模型混合专家,在人工智能和机器学习领域引入了一个新的框架。这种方法在结构和功能上明显不同于传统的lvlm。传统的lvlm通常依赖于密集模型,其中模型的所有部分在处理期间都是活动的。相比之下,MoE-LLaVA采用了“专家混合”设计,这是一种稀疏模型的形式。
在“混合专家”方法中,模型由许多“专家”组成,每个“专家”专门从事数据处理任务的不同方面。然而,与密集模型不同,并非所有专家都同时活跃。MoE-LLaVA在任何给定时刻为给定任务动态选择最相关的专家(top-k专家)。
这种选择性激活减少了计算负载和资源消耗,显著提高了模型效率。通过专注于每个任务中模型最相关的部分,MoE-LLaVA在保持计算效率的同时实现了高性能水平,这是传统的密集结构LVLMs的一大进步。
技术框架
MoE-LLaVA中的专家是模型中的专门模块,每个模块都针对特定类型的数据或任务进行了微调。在处理过程中,模型会评估哪些专家最适合当前数据,并只激活这些专家,有效地提高了处理的针对性和效率。这种方法再计算成本很小的情况下确保了MoE-LLaVA的高性能和准确性,这种效率和效果的平衡是MoE-LLaVA在人工智能和机器学习领域脱颖而出的原因。
MoE-LLaVA的架构详细而复杂,包含多个组件:
视觉编码器:将输入图像转换为视觉表示。
词嵌入层:处理文本数据。
MLP(多层感知机):将视觉标记投射到语言模型的域中,将它们视为伪文本标记。
分层LLM块:由多头自注意机制和前馈神经网络组成,集成了视觉和文本数据。
MoE模块:作为架构的核心,这些模块包含多个专家的前馈网络(ffn)。
路由机制:决定令牌分配给不同的专家。
Top-k专家激活:只激活与给定令牌最相关的专家,从而提高效率。
稀疏路径:允许动态和有效的数据处理,适应不同的模式和任务。
MoE微调
MoE-tuning是一个复杂的三阶段训练策略,旨在优化具有混合专家的LVLMs的性能:
阶段1:重点关注使图像标记适应语言模型,使用MLP将这些标记投射到语言模型的领域,将它们视为伪文本标记。
阶段2:涉及对多模态指令数据进行调优,以增强模型的能力。这个阶段将模型调整为具有多模态理解的LVLM。
阶段3:FFN被多次复制以初始化模型中的专家。然后MoE层处理令牌,每个令牌由top-k专家处理,从而形成一个用稀疏方法有效处理任务的模型。
样例展示
# use phi2deepspeed --include localhost:0 moellava/serve/cli.py --model-path "LanguageBind/MoE-LLaVA-Phi2-2.7B-4e" --image-file "image.jpg"# use qwendeepspeed --include localhost:0 moellava/serve/cli.py --model-path "LanguageBind/MoE-LLaVA-Qwen-1.8B-4e" --image-file "image.jpg"# use stablelmdeepspeed --include localhost:0 moellava/serve/cli.py --model-path "LanguageBind/MoE-LLaVA-StableLM-1.6B-4e" --image-file "image.jpg
使用代码示例
目前已经有多个预训练模型发布,可以直接拿来使用
我们首先安装必要的库
git clone https://github.com/PKU-YuanGroup/MoE-LLaVAcd MoE-LLaVAconda create -n moellava python=3.10 -yconda activate moellavapip install --upgrade pip # enable PEP 660 supportpip install -e .pip install -e ".[train]"pip install flash-attn --no-build-isolation# Below are optional. For Qwen model.git clone https://github.com/Dao-AILab/flash-attentioncd flash-attention && pip install .# Below are optional. Installing them might be slow.# pip install csrc/layer_norm# If the version of flash-attn is higher than 2.1.1, the following is not needed.# pip install csrc/rotary
我们这里加载模型(LanguageBind/MoE-LLaVA-Phi2-2.7B-4e),
import torchfrom PIL import Imagefrom moellava.constants import IMAGE_TOKEN_INDEX, DEFAULT_IMAGE_TOKENfrom moellava.conversation import conv_templates, SeparatorStylefrom moellava.model.builder import load_pretrained_modelfrom moellava.utils import disable_torch_initfrom moellava.mm_utils import tokenizer_image_token, get_model_name_from_path, KeywordsStoppingCriteriadef main():disable_torch_init()image = 'moellava/serve/examples/extreme_ironing.jpg'inp = 'What is unusual about this image?'model_path = 'LanguageBind/MoE-LLaVA-Phi2-2.7B-4e' # LanguageBind/MoE-LLaVA-Qwen-1.8B-4e or LanguageBind/MoE-LLaVA-StableLM-1.6B-4edevice = 'cuda'load_4bit, load_8bit = False, False # FIXME: Deepspeed support 4bit or 8bit?model_name = get_model_name_from_path(model_path)tokenizer, model, processor, context_len = load_pretrained_model(model_path, None, model_name, load_8bit, load_4bit, device=device)image_processor = processor['image']conv_mode = "phi" # qwen or stablelmconv = conv_templates[conv_mode].copy()roles = conv.rolesimage_tensor = image_processor.preprocess(Image.open(image).convert('RGB'), return_tensors='pt')['pixel_values'].to(model.device, dtype=torch.float16)print(f"{roles[1]}: {inp}")inp = DEFAULT_IMAGE_TOKEN + '\n' + inpconv.append_message(conv.roles[0], inp)conv.append_message(conv.roles[1], None)prompt = conv.get_prompt()input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX, return_tensors='pt').unsqueeze(0).cuda()stop_str = conv.sep if conv.sep_style != SeparatorStyle.TWO else conv.sep2keywords = [stop_str]stopping_criteria = KeywordsStoppingCriteria(keywords, tokenizer, input_ids)with torch.inference_mode():output_ids = model.generate(input_ids,images=image_tensor,do_sample=True,temperature=0.2,max_new_tokens=1024,use_cache=True,stopping_criteria=[stopping_criteria])outputs = tokenizer.decode(output_ids[0, input_ids.shape[1]:], skip_special_tokens=True).strip()print(outputs)if __name__ == '__main__':main()
将上面代码保存成predict.py,然后运行
deepspeed --include localhost:0 predict.py
结果评估
与最先进模型的比较分析
MoE-LLaVA框架在一系列视觉理解任务中表现出卓越的性能,通过严格的基准测试,MoE-LLaVA不仅匹配而且在某些情况下超过了现有LVLMs的性能。
总结
MoE-LLaVA代表了大型视觉语言模型(LVLMs)发展的重大飞跃。通过集成混合专家方法,解决了传统LVLMs固有的计算效率低下和缩放困难的核心挑战。MoE-LLaVA的创新设计,包括专家激活机制,不仅提高了效率,而且提高了准确性,减少了模型输出的幻觉。
MoE-LLaVA框架体现了LVLM研究的重大飞跃,提供了可扩展、高效和有效的解决方案,为该领域的未来发展铺平了道路。它的发展不仅展示了将MoE架构集成到lvlm中的潜力,而且还激发了在创建强大而实用的人工智能系统方面的持续探索和创新。
论文地址:
https://avoid.overfit.cn/post/2b965fa8f73647c19679f1611fd37af2
相关文章:

MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型
视觉和语言模型的交叉导致了人工智能的变革性进步,使应用程序能够以类似于人类感知的方式理解和解释世界。大型视觉语言模型(LVLMs)在图像识别、视觉问题回答和多模态交互方面提供了无与伦比的能力。 MoE-LLaVA利用了“专家混合”策略融合视觉和语言数据࿰…...

【Java】ArrayList和LinkedList的区别是什么
目录 1. 数据结构 2. 性能特点 3. 源码分析 4. 代码演示 5. 细节和使用场景 ArrayList 和 LinkedList 分别代表了两类不同的数据结构:动态数组和链表。它们都实现了 Java 的 List 接口,但是有着各自独特的特点和性能表现。 1. 数据结构 ArrayList…...

RabbitMQ-4.MQ的可靠性
MQ的可靠性 4.MQ的可靠性4.1.数据持久化4.1.1.交换机持久化4.1.2.队列持久化4.1.3.消息持久化 4.2.LazyQueue4.2.1.控制台配置Lazy模式4.2.2.代码配置Lazy模式4.2.3.更新已有队列为lazy模式 4.MQ的可靠性 消息到达MQ以后,如果MQ不能及时保存,也会导致消…...

编程相关的经典的网站和书籍
经典网站: Stack Overflow:作为全球最大的程序员问答社区,Stack Overflow 汇聚了大量的编程问题和解答,为程序员提供了极大的帮助。GitHub:全球最大的开源代码托管平台,程序员可以在上面共享自己的项目代码…...

Java代码实现基数排序算法(附带源码)
基数排序是一种非比较型整数排序算法,其原理是将整数按位数切割成不同的数字,然后按每个位数分别比较。由于整数也可以表达字符串(比如名字或日期)和特定格式的浮点数,所以基数排序也不是只能使用于整数。 1. 基数排序…...

基于python+django,我开发了一款药店信息管理系统
功能介绍 平台采用B/S结构,后端采用主流的Python语言进行开发,前端采用主流的Vue.js进行开发。 功能包括:药品管理、分类管理、顾客管理、用户管理、日志管理、系统信息模块。 代码结构 server目录是后端代码web目录是前端代码 部署运行…...

VSCODE使用ssh远程连接时启动服务器失败问题
错误情况 ping服务器的ip可通并且使用terminal可以ssh连接到远程服务器。但使用vscode的remote-ssh时,在「输出」栏出现了一直报 Waiting for server log… 的情况! 解决方法一 重置服务器设置,包括以下手段: 1.清理服务器端的…...

easyexcle 导出csv
导入jar <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>3.3.3</version></dependency>代码 private static List<List<String>> head() {List<List<String>&g…...

Ubuntu22.04 gnome-builder gnome C 应用程序习练笔记(一)
一、序言 gnome-builder构建器是gnome程序开发的集成环境,支持主力语言C, C, Vala, jscript, python等,界面以最新的 gtk 4.12 为主力,将其下版本的gtk直接压入了depreciated,但gtk4.12与普遍使用的gtk3有很大区别,原…...

ESP32QRCodeReader库使用,ESP32-CAM识别二维码并向自写接口发出请求确认身份。
#include <Arduino.h> #include <WiFi.h> #include <HTTPClient.h> #include <ESP32QRCodeReader.h>#define WIFI_SSID "username" #define WIFI_PASSWORD "password" // 连接电脑主机的IP地址的8088端口 #define WEBHOOK_URL &qu…...

什么是网络渗透,应当如何防护?
什么是网络渗透 网络渗透是攻击者常用的一种攻击手段,也是一种综合的高级攻击技术,同时网络渗透也是安全工作者所研究的一个课题,在他们口中通常被称为"渗透测试(Penetration Test)"。无论是网络渗透(Network Penetration)还是渗透…...

掌握C++中的动态数据:深入解析list的力量与灵活性
1. 引言 简介std::list和其在C中的角色 std::list是C标准模板库(STL)中提供的一个容器类,实现了双向链表的数据结构。与数组或向量等基于连续内存的容器不同,std::list允许非连续的内存分配,使得元素的插入和删除操作…...

天地伟业接入视频汇聚/云存储平台EasyCVR详细步骤
安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安…...

Vue源码系列讲解——虚拟DOM篇【二】(Vue中的DOM-Diff)
目录 1. 前言 2. patch 3. 创建节点 4. 删除节点 5. 更新节点 6. 总结 1. 前言 在上一篇文章介绍VNode的时候我们说了,VNode最大的用途就是在数据变化前后生成真实DOM对应的虚拟DOM节点,然后就可以对比新旧两份VNode,找出差异所在&…...

基于AST实现一键自动提取替换国际化文案
背景:在调研 formatjs/cli 使用(使用 formatjs/cli 进行国际化文案自动提取 )过程中,发现有以下需求formatjs/cli 无法满足: id 需要一定的语义化; defaultMessage和Id不能直接hash转换; 需要…...

嵌入式硬件工程师与嵌入式软件工程师
嵌入式硬件工程师与嵌入式软件工程师 纯硬件设备与嵌入式设备 纯硬件设备是指内部不包含微处理器,无需烧写软件就能够运行的电子设备。如天线、老式收音机、老式电视机、老式洗衣机等。这类设备通常功能简单,易于操作,用户通常只需要打开电…...

【华为云】云上两地三中心实践实操
写在前面 应用上云之后,如何进行数据可靠性以及业务连续性的保障是非常关键的,通过华为云云上两地三中心方案了解相关方案认证地址:https://connect.huaweicloud.com/courses/learn/course-v1:HuaweiXCBUCNXI057Self-paced/about当前内容为华…...

Linux大集合
Linux Linux是什么? Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、 支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和 64位硬件。 Linux内核 是一个Linux系统…...

深入解析 Spring 事务机制
当构建复杂的企业级应用程序时,数据一致性和可靠性是至关重要的。Spring 框架提供了强大而灵活的事务管理机制,成为开发者处理事务的首选工具。本文将深入探讨 Spring 事务的使用和原理,为大家提供全面的了解和实际应用的指导。 本文概览 首…...

第9章 安全漏洞、威胁和对策(9.11-9.16)
9.11 专用设备 专用设备王国疆域辽阔,而且仍在不断扩张。 专用设备是指为某一特定目的而设计,供某一特定类型机构使用或执行某一特定功能的任何设备。 它们可被看作DCS、物联网、智能设备、端点设备或边缘计算系统的一个类型。 医疗设备、智能汽车、…...

Mysql-数据库压力测试
安装软件 官方软件 安装插件提供了更多的监听器选项 数据库驱动 数据库测试 配置 这里以一个简单的案例进行,进行连接池为10,20,30的梯度压测: select * from tb_order_item where id 1410932957404114945;新建一个线程组 新增一个连接池配置 新建一…...

CI/CD总结
bitbucket deployment: Bitbucket Cloud resources | Bitbucket Cloud | Atlassian Support Jenkins:...

【CSS】margin塌陷和margin合并及其解决方案
【CSS】margin塌陷和margin合并及其解决方案 一、解决margin塌陷的问题二、避免外边距margin重叠(margin合并) 一、解决margin塌陷的问题 问题:当父元素包裹着一个子元素且父元素没有边框的时候,当给子元素设置margin-top:100px&…...

Python并发
Python是运行在解释器中的语言,查找资料知道,python中有一个全局锁(GIL),在使用多线程(Thread)的情况下,不能发挥多核的优势。而使用多进程(Multiprocess),则可以发挥多核的优势真正地提高效率。…...

2024-02-04(hive)
1.Hive中的分区表 可以选择字段作为表分区。 分区其实就是HDFS上的不同文件夹。 分区表可以极大的提高特定场景下Hive的操作性能。 2.分区语法 create table tablename(...) partitioned by (分区列 列类型, ...) row format delimited fields terminated by ; 3.Hive中的…...

P9420 [蓝桥杯 2023 国 B] 子 2023 / 双子数--2024冲刺蓝桥杯省一
点击跳转例题 子2023思路:dp。最开始想着枚举,但是超时,想着优化以下,但是还是不行。 那么切换算法,应该是dp: 1.f [i] 表示当前字符串 以 2023 为第 i 位的数量方案:如f [0] 表示 前i个字符串…...

The Back-And-Forth Method (BFM) for Wasserstein Gradient Flows windows安装
本文记录了BFM算法代码在windows上的安装过程。 算法原网站:https://wasserstein-gradient-flows.netlify.app/ github:https://github.com/wonjunee/wgfBFMcodes 文章目录 FFTWwgfBFMcodesMATLABpython注 FFTW 官网/下载路径:https://ww…...

【GAMES101】Lecture 19 透镜
目录 理想的薄透镜 模糊 利用透镜模型做光线追踪 景深(Depth of Field) 理想的薄透镜 在实际的相机中都是用的一组透镜来作为这个镜头 这个因为真实的棱镜无法将光线真正聚焦到一个点上,它只能聚在一堆上 所以方便研究提出了一种理想化的…...

防范恶意勒索攻击!亚信安全发布《勒索家族和勒索事件监控报告》
本周态势快速感知 本周全球共监测到勒索事件81起,事件数量有所下降,比上月降低20%。 lockbit3.0仍然是影响最严重的勒索家族;akira和incransom也是两个活动频繁的恶意家族,需要注意防范。 本周alphv勒索组织窃取MBC法律专业公司…...

AR人脸106240点位检测解决方案
美摄科技针对企业需求推出了AR人脸106/240点位检测解决方案,为企业提供高效、精准的人脸识别服务,采用先进的人脸识别算法和机器学习技术,通过高精度、高速度的检测设备,对人脸进行快速、准确地定位和识别。该方案适用于各种应用场…...