当前位置: 首页 > news >正文

大模型日报|今日必读的10篇大模型论文

在这里插入图片描述
大家好,今日必读的大模型论文来啦!

1.谷歌推出新型 Transformer 架构:反馈注意力就是工作记忆

虽然 Transformer 给深度学习带来了革命性的变化,但二次注意复杂性阻碍了其处理无限长输入的能力。

谷歌研究团队提出了一种新型 Transformer 架构“反馈注意力记忆”(Feedback Attention Memory,FAM),其利用反馈环路使网络能够关注自身的潜在表征。这种设计促进了 Transformer 工作记忆的出现,使其能够处理无限长的序列。TransformerFAM 不需要额外的权重,因此可以与预训练模型无缝集成。

实验表明,TransformerFAM 显著提高了 Transformer 在各种模型大小(1B、8B 和 24B)的长上下文任务中的性能。

论文链接:
https://arxiv.org/abs/2404.09173

2.高通新研究:提高多模态大型语言模型的推理速度

多模态大型语言模型(MLLMs)的推理速度很慢,这是因为其大型语言模型骨干存在内存带宽瓶颈,并且会自动回归生成 toekn。

高通研究团队探讨了如何应用推测解码来提高 MLLM(特别是 LLaVA 7B 模型)的推理效率。研究表明,纯语言模型可以作为使用 LLaVA 7B 进行推测解码的良好草稿模型,从而绕过草稿模型中图像 token 及其相关处理组件的需要。在三个不同任务中进行的实验表明,推测解码可以实现高达 2.37 倍的内存加速。

论文链接:
https://arxiv.org/abs/2404.08856

3.确保 LLM 对齐和安全的 18 个基本挑战

来自剑桥大学的研究团队及其合作者确定了在确保大型语言模型(LLMs)的一致性和安全性方面的 18 个基本挑战。这些挑战被分为三个不同的类别:对 LLMs 的科学理解,开发和部署方法,以及社会技术挑战。他们根据已确定的挑战,提出了 200 多个具体的研究问题。

论文链接:
https://arxiv.org/abs/2404.09932

4.Ctrl-Adapter:使多样的控制适应任意扩散模型的高效和通用的框架

ControlNets 被广泛用于在不同条件下的图像生成中添加空间控制,如深度图、canny 边缘和人体姿态。

然而,在利用预训练图像 ControlNets 进行受控视频生成时,依然存在一些挑战。首先,由于特征空间的不匹配,预训练的 ControlNet 不能直接插入到新的骨干模型中,且为新骨干训练 ControlNet 的成本很高。其次,不同帧的 ControlNet 特征可能不能有效地处理时间一致性问题。

为此,北卡罗来纳大学教堂山分校团队提出了一个高效、通用的框架——Ctrl-Adapter,其可以通过适应预训练的 ControlNets (并改善视频的时间对齐),为任何图像、视频扩散模型添加不同的控件。Ctrl-Adapter 提供多种功能,包括图像控制、视频控制、具有稀疏帧的视频控制、多条件控制、兼容不同的骨干、适应未见过的控制条件和视频编辑。在 Ctrl-Adapter 中,训练适配器层,将预训练的控制网络特征融合到不同的图像、视频扩散模型,同时冻结 ControlNet 和扩散模型的参数。Ctrl-Adapter 由时间模块和空间模块组成,可以有效地处理视频的时间一致性。他们还提出潜在跳跃和逆时间步采样,用于鲁棒自适应和稀疏控制。

此外,Ctrl-Adapter 还能通过简单地取 ControlNet 输出的(加权)平均值来实现多种条件下的控制。凭借各种图像、视频扩散骨干(SDXL、Hotshot-XL、I2VGen-XL 和 SVD), Ctrl-Adapter 在图像控制方面与 ControlNet 不相上下,并在视频控制方面超过所有基线(在 DAVIS 2017 数据集上实现 SOTA 精度),而且计算成本显著降低(少于 10 GPU 小时)。

论文链接:
https://arxiv.org/abs/2404.09967
项目地址:
https://ctrl-adapter.github.io/

5.Tango 2:通过直接偏好优化调整基于扩散的文生视频模型

生成式多模态内容在许多内容创作领域日益流行,因为它有可能让艺术家和媒体人员通过快速将他们的想法带到生活中来创建预制作模型。根据文字提示生成音频,是在音乐和电影行业中这类流程的一个重要方面。

目前,许多基于文生视频的扩散模型专注于在大量提示音频对数据集上训练日益复杂的扩散模型。然而,这些模型并没有明确地关注概念或事件的存在,以及它们在输出音频中与输入提示相关的时间顺序。

来自新加坡科技设计大学的研究团队及其合作者假设关注的是音频生成的这些方面如何在数据有限的情况下提高音频生成的性能。他们使用现有的文本到音频模型 Tango,综合创建了一个偏好数据集,其中每个提示都有一个赢家的音频输出和一些输家的音频输出,供扩散模型学习。从理论上讲,输家的输出可能缺少提示中的一些概念或顺序不正确。

他们在偏好数据集上使用 diffusion-DPO 损失对公开可用的 Tango 文生视频模型进行了微调,并表明它在自动和手动评估指标方面优于 Tango 和 AudioLDM2 的音频输出。

论文链接:
https://arxiv.org/abs/2404.09956
GitHub 地址:
https://github.com/declare-lab/tango

6.Video2Game:将真实世界场景视频转换为现实和交互式游戏环境

创建高质量的交互式虚拟环境,如游戏和模拟器,通常涉及复杂和昂贵的人工建模过程。

来自伊利诺伊大学香槟分校、上海交通大学和康奈尔大学的研究团队提出了一种自动将真实世界场景视频转换为现实和交互式游戏环境的新方法——Video2Game。该系统的有三个核心组件:(1)神经辐射场(NeRF)模块,有效捕捉场景的几何形状和视觉外观(2)一个网格模块,从 NeRF 中提取知识,以更快地渲染(3)物理模块,对物体之间的相互作用和物理动力学进行建模。

通过遵循精心设计的管道,人们可以构建现实世界的可交互和可操作的数字副本。在室内和大规模室外场景上对该系统进行了基准测试证明,该方法不仅可以实时产生高度逼真的渲染,还可以在上面构建交互式游戏。

论文链接:
https://arxiv.org/abs/2404.09833
GitHub 地址:
https://video2game.github.io/

7.北大、快手提出 UNIAA:让多模态大模型更懂人类审美

作为昂贵的专家评估的替代方案,图像美学评估(IAA)是计算机视觉领域的一项重要任务。然而,传统的 IAA 方法通常局限于单一的数据源或任务,限制了其通用性。

为了更好地符合人类的审美,来自北京大学和快手的研究团队提出了一个统一的多模态图像美学评估(UNIAA)框架,包括一个名为 UNIAA-LLaVA 的多模态大型语言模型(MLLM)和一个名为 UNIAA-Bench 的综合基准。他们为 IAA 选择了具有视觉感知和语言能力的 MLLMs,并建立了一种将现有数据集转换为统一的高质量视觉指令微调数据的低成本范式,并以此为基础训练 UNIAA-LLaVA。为了进一步评估 MLLMs 的 IAA 能力,他们构建了由感知、描述和评估 3 个审美层次组成的 UNIAA-Bench。

通过大量实验,验证了 UNIAA 的有效性和合理性。与现有的 MLLMs 相比,UNIAA-LLaVA 在 UNIAA-Bench的所有级别上都实现了有竞争力的性能。该模型在审美感知方面的表现优于 GPT-4V,甚至接近人类(junior-level),MLLMs在 IAA 中有很大的潜力,但仍有很大的改进空间。

论文链接:
https://arxiv.org/abs/2404.09619

8.综述:替代 Transformer 的状态空间模型

近来,状态空间模型(State Space Model,SSM)作为一种可能替代基于自注意力的 Transformer 的方法,受到了越来越多的关注。在这项工作中,来自安徽大学、哈尔滨工业大学和北京大学的研究团队,首先对这些工作进行了全面的综述,并进行了实验比较和分析,从而更好地展示 SSM 的特点和优势。

具体而言,他们首先对 SSM 的原理进行了详细描述,从而帮助读者快速捕捉 SSM 的主要思想;然后,对现有的 SSM 及其各种应用进行综述,包括自然语言处理、计算机视觉、图、多模态多媒体、点云/事件流、时间序列数据等领域。此外,他们还对这些模型进行了统计上的比较和分析,希望能帮助读者了解不同结构在各种任务上的有效性。然后,他们提出了该方向可能的研究方向,从而更好地推动 SSM 理论模型和应用的发展。

论文链接:
https://arxiv.org/abs/2404.09516
GitHub 地址:
https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List

9.Melodist:实现包含人声和伴奏的可控文生歌曲模型

歌曲是歌声和伴奏的结合,然而,现有的工作主要集中在歌唱声音合成和音乐生成上,很少有人关注歌曲合成。

来自浙江大学的研究团队提出了一项名为“文本到歌曲合成”(text-to-song synthesis)的新任务,其中包含人声和伴奏的生成,他们开发的 Melodist 是一种两阶段文本到歌曲方法,包括歌唱语音合成 (SVS)和人声到伴奏合成 (V2A)。Melodist 利用三塔对比预训练来学习更有效的文本表示,用于可控的 V2A 合成。

为了缓解数据的稀缺性问题,他们构建了一个从音乐网站中挖掘出的中文歌曲数据集。在他们的数据集上的评估结果表明,Melodist 可以合成具有相当质量和风格一致性的歌曲。

论文链接:
https://arxiv.org/abs/2404.09313
项目地址:
https://text2songmelodist.github.io/Sample/

10.Megalodon:具有无限文本长度的高效 LLM 预训练和推理

Transformers 的二次方复杂性和较弱的长度外推能力限制了其扩展至长序列的能力,虽然存在线性注意和状态空间模型等二次方以下的解决方案,但根据经验,它们在预训练效率和下游任务准确性方面都不如 Transformers。

来自南加利福尼亚大学、Meta、卡内基梅隆大学和加利福尼亚大学圣地亚哥分校的研究团队提出了一种用于高效序列建模,并且其上下文长度不受限制的神经架构 Megalodon。Megalodon 继承了 Mega 的指数移动平均线架构,为提高其能力和稳定性,还进一步提出了多种技术组件,包括复杂指数移动平均法(CEMA)、时间步归一化层、归一化关注机制和带两跳残差配置的预归一化。在与 Llama2 的可控正面比较中,Megalodon 在 70亿个参数和2万亿训练 Tokens 的规模上取得了比 transformer 更好的效率。Megalodon 的训练损失为1.70,降落在美洲驼 2-7B (1.75) 和 13B (1.67) 之间。

论文链接:
https://arxiv.org/abs/2404.08801
GitHub 地址:
https://github.com/XuezheMax/megalodon

相关文章:

大模型日报|今日必读的10篇大模型论文

大家好,今日必读的大模型论文来啦! 1.谷歌推出新型 Transformer 架构:反馈注意力就是工作记忆 虽然 Transformer 给深度学习带来了革命性的变化,但二次注意复杂性阻碍了其处理无限长输入的能力。 谷歌研究团队提出了一种新型 T…...

深度学习 Lecture 8 决策树

一、决策树模型(Decision Tree Model) 椭圆形代表决策节点(decison nodes),矩形节点代表叶节点(leaf nodes),方向上的值代表属性的值, 构建决策树的学习过程: 第一步:决定在根节点…...

打包 docker 容器镜像到另一台电脑

# 提交容器为镜像 <container_id> 容器id my_migration_image 镜像名称 docker commit <container_id> my_migration_image # 保存镜像为tar文件 docker save my_migration_image > my_migration_image.tar 在另一台电脑上导入上面的镜像&#xff0c;请…...

贪心算法--购买股票

给你一个整数数组 prices &#xff0c;其中 prices[i] 表示某支股票第 i 天的价格。 在每一天&#xff0c;你可以决定是否购买和/或出售股票。你在任何时候 最多 只能持有 一股 股票。你也可以先购买&#xff0c;然后在 同一天 出售。 返回 你能获得的 最大 利润 。 示例 1&a…...

在Mac主机上连接Linux虚拟机

前言 最近醉心于研究Linux&#xff0c;于是在PD上安装了一个Debian Linux虚拟机&#xff0c;用来练练手。但是每次在mac和Linux之间切换很是麻烦&#xff0c;有没有一种方法&#xff0c;可以在mac终端直接连接我的虚拟机&#xff0c;这样在mac终端上就可以直接操控我的Linux虚…...

前端如何单独做虚拟奖金池?

公司业务需求要做一个虚拟奖金池&#xff0c;具体是需求是&#xff0c;不需要后端数据支持&#xff0c;但是又需要不同用户看到的奖金池数据每次变动都是一致的&#xff0c;并且要在给定的最小最大值中变动。 一开始看需求&#xff0c;因为需要所有登录/未登录&#xff0c;不同…...

前端md5校验文件

前端获取文件的md5值&#xff0c;与文件一同传到后端&#xff0c;后端同样对md5值进行校验。如果相同&#xff0c;则文件未被损坏&#xff08;其实这种方式优点类似于tcp、ip的差错校验&#xff0c;好像token也是这种方式&#xff09; 项目准备 前端并不可能手写一个算法来实…...

总结SQL相对常用的几个字符函数

目录 字符的截取 substr() trim()、ltrim()、rtrim() 字符串的拼接 ||、 字符的大小写转换 upper(column_name):大写 lower(column_name):小写 字符替换 replace() 搜索字符 instr(column_name, substring_to_find,start,n_appearence) charindex(substring_to_fi…...

云计算笔记

RAID的组合方式 RAID0&#xff1a;多个硬盘同时工作&#xff0c;可提供性能&#xff0c;无冗余机制 RAID1&#xff1a;数据保存多份&#xff0c;提供冗余机制&#xff0c;性能受到影响 RAID3&#xff1a;存在数据盘和单独校验盘&#xff0c;数据写入 至数据盘后需要运算且将…...

网络安全学习路线-超详细

零基础小白&#xff0c;到就业&#xff01;入门到入土的网安学习路线&#xff01; 在各大平台搜的网安学习路线都太粗略了。。。。看不下去了&#xff01; 建议的学习顺序&#xff1a; 一、网络安全学习普法&#xff08;心里有个数&#xff0c;要进去坐几年&#xff01;&#x…...

【多模态检索】Coarse-to-Fine Visual Representation

快手文本视频多模态检索论文 论文&#xff1a;Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation Learning 链接&#xff1a;https://arxiv.org/abs/2401.00701 摘要 近些年&#xff0c;基于CLIP的text-to-video检索方法…...

VRRP——虚拟路由冗余协议

什么是VRRP 虚拟路由冗余协议VRRP&#xff08;Virtual Router Redundancy Protocol&#xff09;是一种用于提高网络可靠性的容错协议。 通过VRRP&#xff0c;可以在主机的下一跳设备出现故障时&#xff0c;及时将业务切换到备份设备&#xff0c;从而保障网络通信的连续性和可…...

隧道应急广播应该如何搭建?

隧道应急广播系统的搭建需遵循以下关键步骤&#xff0c;确保在紧急情况下能够迅速、准确地传达信息&#xff0c;保障人员安全&#xff1a; 1. 需求分析与规划设计&#xff1a; 明确目标&#xff1a;确定广播系统覆盖范围&#xff08;如隧道全长、出入口、避难所等关键位置&…...

OpenHarmony实战开发-Worker子线程中解压文件。

介绍 本示例介绍在Worker 子线程使用ohos.zlib 提供的zlib.decompressfile接口对沙箱目录中的压缩文件进行解压操作&#xff0c;解压成功后将解压路径返回主线程&#xff0c;获取解压文件列表。 效果图预览 使用说明 1.点击解压按钮&#xff0c;解压test.zip文件&#xff0c…...

中国科学院大学学位论文LaTeX模版

Word排版太麻烦了&#xff0c;公式也不好敲&#xff0c;推荐用LaTeX模版&#xff0c;全自动 官方模版下载位置&#xff1a;国科大sep系统 → \rightarrow → 培养指导 → \rightarrow → 论文 → \rightarrow → 论文格式检测 → \rightarrow → 撰写模板下载百度云&#…...

秘塔和Kimi AI在资料查询和学习中的使用对比

一、引言 最近老猿在网上查资料时&#xff0c;基本上都使用Kimi AI进行查询&#xff0c;发现其查询资料后总结到位&#xff0c;知识点的准确度较高。今天早上收到一个消息&#xff0c;说新推出的秘塔AI比Kimi更新进&#xff0c;老猿利用在学习的《统计知识学习》简单对比试用了…...

apk反编译

APK文件可以通过多个工具反编译&#xff0c;以便查看包含在其中的Java源文件。但是&#xff0c;需要注意的是&#xff0c;通常通过反编译得到的不是原始的Java源代码&#xff0c;而是反编译后的代码&#xff0c;这意味着它可能已经被转换成了类似于原始Java代码的形式&#xff…...

修改百度百科的词条的方法

百度百科作为国内最大的百科全书网站之一&#xff0c;是广大网民获取各类知识的重要途径之一。所以&#xff0c;如何修改百度百科的词条成为了很多人关心的话题。本文将介绍修改百度百科的方法&#xff0c;并提供一些技巧和注意事项。 注册百度账号 首先&#xff0c;进入百度百…...

更改ip地址的几种方式有哪些

在数字化时代&#xff0c;IP地址作为网络设备的标识&#xff0c;对于我们在网络世界中的活动至关重要。然而&#xff0c;出于多种原因&#xff0c;如保护隐私、访问特定网站或进行网络测试&#xff0c;我们可能需要更改IP地址。虎观代理将详细介绍IP地址的更改方法与步骤&#…...

Flink学习(六)-容错处理

前言 Flink 是通过状态快照实现容错处理 一、State Backends 由 Flink 管理的 keyed state 是一种分片的键/值存储&#xff0c;每个 keyed state 的工作副本都保存在负责该键的 taskmanager 本地中。 一种基于 RocksDB 内嵌 key/value 存储将其工作状态保存在磁盘上&#x…...

设计模式(020)行为型之备忘录模式

备忘录模式是一种行为型设计模式&#xff0c;用于在不破坏封装性的前提下捕获一个对象的内部状态&#xff0c;并在该对象之外保存这个状态&#xff0c;以便之后可以将该对象恢复到之前的状态。这种模式通常用于需要记录对象状态历史、撤销操作或实现“回到过去”功能的场景。 在…...

Android 系统锁屏息屏休眠时Handler CountDownTimer计时器停止运行问题解决

1.前言 在进行app开发的过程中,在进行某些倒计时的功能项目开发中,会遇到在锁屏息屏休眠一段时间的情况下, 在唤醒屏幕的情况下发现倒计时已经停止了,这是因为在系统处于休眠的状态下cpu也停止了工作,所以 handler和countdowntimer倒计时也停止了工作,接下来就来看怎么样…...

Java中如何提取视频文件的缩略图

在Java中&#xff0c;可以使用FFmpeg库来提取视频文件的缩略图。以下是一种使用FFmpeg的方法来提取视频缩略图的示例代码&#xff1a; import java.io.File; import java.io.IOException;public class VideoThumbnailExtractor {public static void main(String[] args) {Stri…...

总结 HashTable, HashMap, ConcurrentHashMap 之间的区别

前言 HashMap 本身不是线程安全的. 在多线程环境下使用哈希表可以使用: Hashtable&#xff08;不推荐使用&#xff09;ConcurrentHashMap&#xff08;推荐使用&#xff09; HashMap HashMap数据结构 根本&#xff1a; 数组 链表&#xff08;jdk1.7&#xff09;/数组链表红黑…...

《剑指 Offer》专项突破版 - 面试题 107 : 矩阵中的距离(C++ 实现)

题目链接&#xff1a;矩阵中的距离 题目&#xff1a; 输入一个由 0、1 组成的矩阵 M&#xff0c;请输出一个大小相同的矩阵 D&#xff0c;矩阵 D 中的每个格子是矩阵 M 中对应格子离最近的 0 的距离。水平或竖直方向相邻的两个格子的距离为 1。假设矩阵 M 中至少有一个 0。 …...

揭秘智慧礼品背后的故事

如若不是从事技术行业&#xff0c;在罗列礼品清单时&#xff0c;可能不会想到 “数据”&#xff0c;但幸运的是&#xff0c;我们想到了。如何将AI技术应用到当季一些最受青睐的产品中去&#xff0c;训练数据是这一智能技术的背后动力。很多电子设备或名称中带有“智能”一词的设…...

NVM的安装与配置

目录 一、简介二、下载2.1、windows环境下载地址2.2、安装 三、配置3.1、查看可安装版本3.2、安装版本3.3、使用和切换版本3.4、模块配置 四、其他4.1、全局安装pnpm4.2、常用nvm命令 一、简介 NVM&#xff0c;全称为Node Version Manager&#xff0c;是一个流行的命令行工具&a…...

[Java EE] 多线程(一) :线程的创建与常用方法(上)

1. 认识线程 1.1 概念 1.1.1 什么是线程 ⼀个线程就是⼀个"执⾏流".每个线程之间都可以按照顺序执⾏⾃⼰的代码.多个线程之间"同时"执⾏ 着多份代码. 还是回到我们之前的银⾏的例⼦中。之前我们主要描述的是个⼈业务&#xff0c;即⼀个⼈完全处理⾃⼰的…...

Linux安装docker(含Centos系统和Ubuntu系统)

一、Centos系统 1. 卸载旧版本依赖 sudo yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest \docker-latest-logrotate \docker-logrotate \docker-engine 2. 设置仓库 安装所需的软件包。yum-utils 提供了 yum-config-manager &…...

【第十五届蓝桥杯大赛软件赛省赛】———— C/C++ 大学B组

蓝桥杯2024年15届省赛b组原题献上...

西宁哪家网络公司做网站/网络营销方案设计范文

jmeter中通过jdbc方式连接mysql数据库的配置参考&#xff1a; Database URLjdbc:mysql://ip:port/dbname?useUnicodetrue&allowMultiQueries&characterEncodingUTF-8 JDBC Driver classcom.mysql.jdbc.Driver jmeter中配置截图&#xff1a; 转载于:https://www.cnblog…...

怎样做读书会网站/优化设计高中

.创建数据库create database 库名create database if not exists 库名创建库的同时指定字符集,校对规则create database mydb character set utf8collate utf8-general_ci;显示所有数据库show databases;显示创建数据库的定义信息show create dabasese 库名2.修改数据库&#…...

.net 网站开发权限设计/百度账号怎么改用户名

------------------------------------------------------------------------------------------------------------------------------------------在Linux系统中文件的权限可以在文件上单击右键—>属性来查看。但是我们这次用的是全命令来查看和修改文件的权限为了举一个实…...

京东企业的电子网站建设/视频号广告推广

坐标系统 将坐标变换为标准化设备坐标&#xff0c;接着再转化为屏幕坐标的过程通常是分步进行的&#xff0c;也就是类似于流水线那样子。在流水线中&#xff0c;物体的顶点在最终转化为屏幕坐标之前还会被变换到多个坐标系统(Coordinate System)。将物体的坐标变换到几个过渡坐…...

合肥的网站建设公司哪家好/合肥网站建设优化

昨天 Go 1.13 终于发布了&#xff0c;虽然比预期延迟了半个月之久&#xff0c;但毕竟迟到总比不到好。Go 1.13 的发布为 Go 带来了不少变化&#xff08;详见&#xff1a;https://golang.org/doc/go1.13 &#xff09;&#xff0c;有些变化可能是开发者无法直接感觉到的&#xff…...

做图网站/网站seo优化是什么意思

1.确认路由器的公网IP是不是真的公网IP(特别重要&#xff0c;如果不是可以不用看后面的了) 通过www.ip138.com网站可以查询当前网络的公网IP&#xff0c;再进入路由器控制界面查看wan口IP和公网IP是否相同&#xff0c;如果不同&#xff0c;大概率是私网IP&#xff08;服务商在…...