当前位置: 首页 > news >正文

每日学术速递5.8

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Personalize Segment Anything Model with One Shot

标题:一键个性化细分任何模型

作者:Renrui Zhang, Zhengkai Jiang, Ziyu Guo, Shilin Yan, Junting Pan, Hao Dong, Peng Gao, Hongsheng Li

文章链接:https://arxiv.org/abs/2305.03048

项目代码:https://github.com/ZrrSkywalker/Personalize-SAM

摘要:

        在大数据预训练的驱动下,Segment Anything Model (SAM) 已被证明是一个强大且可提示的框架,彻底改变了分割模型。尽管具有普遍性,但在没有人工提示的情况下为特定视觉概念定制 SAM 仍在探索中,例如,在不同的图像中自动分割您的宠物狗。在本文中,我们提出了一种用于 SAM 的免训练个性化方法,称为 PerSAM。只给定一张带有参考掩码的图像,PerSAM 首先通过一个位置先验定位目标概念,然后通过三种技术在其他图像或视频中将其分割:目标引导注意、目标语义提示和级联后细化。通过这种方式,我们无需任何培训即可有效地将 SAM 用于私人用途。为了进一步减轻掩模歧义,我们提出了一种有效的单次微调变体 PerSAM-F。冻结整个 SAM,我们为多尺度掩码引入了两个可学习的权重,仅在 10 秒内训练 2 个参数以提高性能。为了证明我们的功效,我们构建了一个新的分割数据集 PerSeg,用于个性化评估,并测试我们的视频对象分割方法具有竞争力的性能。此外,我们的方法还可以增强 DreamBooth 以个性化用于文本到图像生成的稳定扩散,从而丢弃背景干扰以实现更好的目标外观学习。代码在此 https URL 上发布

2.FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction(ACL 2023)

标题:FormNetV2:用于表单文档信息提取的多模态图对比学习

作者:Chen-Yu Lee, Chun-Liang Li, Hao Zhang, Timothy Dozat, Vincent Perot, Guolong Su, Xiang Zhang

文章链接:https://arxiv.org/abs/2305.02549

项目代码:https://huggingface.co/papers/2305.02549

摘要:

        最近出现的自我监督预训练技术导致在表格文档理解中使用多模态学习的激增。然而,将掩码语言建模扩展到其他模态的现有方法需要仔细的多任务调整、复杂的重建目标设计或额外的预训练数据。在 FormNetV2 中,我们引入了一种集中式多模态图对比学习策略,以在一次损失中统一所有模态的自我监督预训练。图对比目标最大化多模态表示的一致性,为所有模态提供自然的相互作用,无需特殊定制。此外,我们提取边界框内的图像特征,边界框连接一对由图形边缘连接的标记,捕获更有针对性的视觉线索,而无需加载复杂且单独预训练的图像嵌入器。FormNetV2 以更紧凑的模型尺寸在 FUNSD、CORD、SROIE 和支付基准上建立了新的最先进性能。

Subjects: cs.CL

3.Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision

标题:在最少的人工监督下从头开始进行语言模型的原则驱动自对齐

作者:Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan

文章链接:https://arxiv.org/abs/2305.03047

项目代码:https://mitibmdemos.draco.res.ibm.com/dromedary

摘要:

        最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题,这种依赖性会极大地限制 AI 助手的真正潜力。为了应对这些挑战,我们提出了一种称为 SELF-ALIGN 的新方法,它结合了原则驱动的推理和 LLM 的生成能力,以在最少的人工监督下实现 AI 代理的自对齐。我们的方法包括四个阶段:首先,我们使用 LLM 生成合成提示,并使用主题引导方法来增加提示的多样性;其次,我们使用一小组人工编写的人工智能模型原则来遵循,并通过从(原则应用的)演示中进行上下文学习来指导法学硕士,以对用户的查询产生有用的、合乎道德的和可靠的响应;第三,我们使用高质量的自对齐响应对原始 LLM 进行微调,以便生成的模型可以直接为每个查询生成理想的响应,而无需原则集和演示;最后,我们提供了一个改进步骤来解决过于简短或间接响应的问题。将 SELF-ALIGN 应用于 LLaMA-65b 基础语言模型,我们开发了一个名为 Dromedary 的 AI 助手。少于 300 行人工注释(包括 < 200 个种子提示、16 个通用原则和 5 个用于上下文学习的示例)。在具有各种设置的基准数据集上,Dromedary 的性能显着超过了几个最先进的 AI 系统,包括 Text-Davinci-003 和 Alpaca。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

相关文章:

每日学术速递5.8

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Personalize Segment Anything Model with One Shot 标题&#xff1a;一键个性化细分任何模型 作者&#xff1a;Renrui Zhang, Zhengkai Jiang, Ziyu Guo, Shilin Yan, Junting Pa…...

ChatGPT时代:我们可能站到了自然语言编程的大门口

ChatGPT大火&#xff0c;我现在有种感觉&#xff1a;我们可能站到了自然语言编程的门口&#xff0c;一脚下去&#xff0c;也许能把门踹开。 当然&#xff0c;也可能会踢到一块铁板。 回顾我们的编程之路&#xff0c;基本上就是一个编程门槛不断降低的历史。 最早的一批前辈们…...

关于不同处理器的函数调用规则

关于不同处理器的函数调用规则 接前面一篇变长参数调用的记录&#xff0c;这次从原理上进行了进一步研究。 不同调用规则对对于编译出来的汇编影响很大的&#xff0c;这里之前的理解比较粗浅&#xff0c;尤其是一般教科书或者网上能看到的内容都比较老&#xff0c;这里记录一下…...

Rust Wasm Linux开发环境搭建

一、Linux 镜像版本 CentOS-7-x86_64-DVD-2009.iso&#xff0c;Virtual Box 7.0 选择 GNOME Desktop 版本&#xff0c; 配置远程连接&#xff08;可选&#xff09;&#xff0c; nmtui 激活连接 enp0s3 &#xff0c;查看 ip 地址&#xff0c; 绑定端口转发&#xff0c; 通过…...

【项目设计】 负载均衡在线OJ系统

&#x1f9f8;&#x1f9f8;&#x1f9f8;各位大佬大家好&#xff0c;我是猪皮兄弟&#x1f9f8;&#x1f9f8;&#x1f9f8; 文章目录 一、项目介绍项目技术栈和开发环境 二、项目的宏观结构三、compile_server模块①日志模块开发&#xff0c;Util工具类&#xff0c;供所以模…...

【服务器】无公网IP,异地远程连接威联通NAS

Yan-英杰的主页 悟已往之不谏 知来者之可追 C程序员&#xff0c;2024届电子信息研究生 目录 前言 1. 威联通安装cpolar内网穿透 2. 内网穿透 2.1 创建隧道 2.2 测试公网远程访问 3. 配置固定二级子域名 3.1 保留二级子域名 3.2 配置二级子域名 4. 使用固定二级子…...

在中国,年收入20W是什么水平?答案扎心了(文末附最新招聘)

最近关于“年薪20万算什么水平&#xff1f;”冲上了热搜。对此&#xff0c;许多网友纷纷表示自己的看法&#xff0c;有的认为这个收入属于中高收入人群了。 因为按照最近某招聘网站发布的《中国企业招聘薪酬报告》来看&#xff0c;今年一季度38城企业平均招聘薪酬为10101元&…...

navicat连接oracle报错 ORA-28547

报错 原因 Navicat自带的oci.dll并不支持oracle11g 具体操作 1. 先用idea连接oracle&#xff0c;查看oracle版本 select * from v$version; 2. 去官网下载 Instant Client 地址&#xff1a; Oracle Instant Client Downloads 下载 选择对应的版本&#xff08;下载时&#x…...

量化指标WR:弱的确是弱,但是老Q会魔改啊!

WR指标是一个极其简单的指标,跟我们前边讲过的KDJ有着千丝万缕的联系。原本不打算讲这个指标的,但是有粉丝一直想了解一下,那今天老Q就再专门说一下。 顺便把KDJ那篇文章就提到的魔改思路给大家实现一下——毕竟,WR这种指标,不魔改一下实在是坑人啊。 文末附魔改公式。 …...

生物信息学知识点

生物信息学知识点 1. 序列比对&#xff1a;1.1 基本概念&#xff1a;1.2 全局比对和局部比对&#xff1a;1.3 空位罚分的改进&#xff1a;1.4 同源性和相似性&#xff1a;1.5 相似性矩阵&#xff1a;1.5.1 PAM&#xff1a;1.5.2 BLOSUM&#xff1a; 2. BLAST算法&#xff1a;2.…...

14.贪心算法

一、算法内容 1.简介 贪心算法是指在对问题求解时&#xff0c;总是做出在当前看来是最好的选择&#xff0c;而不考虑后续可能造成的影响。也就是说&#xff0c;不从整体最优上加以考虑&#xff0c;只做出在某种意义上的局部最优解。 贪心算法不是对所有问题都能得到整体最优…...

你知道营销人为什么要讲洞察吗?

用户洞察&#xff0c;是制定品牌和产品战略的基础&#xff0c;基于深刻的用户洞察&#xff0c;才能谈价值发现&#xff0c;目标规划&#xff0c;产品设计&#xff0c;全方位运营等。 可以这么说&#xff0c;没有洞察就没有营销&#xff0c;因为你的营销策略不能凭空想象&#…...

Neovim-配置教程

环境&#xff1a;Ubuntu 20.04 宿主机&#xff1a;windows &#xff08;windows terminal&#xff09;WSL2 NVIM&#xff1a;v0.10.0-dev 配置Neovim 需要保证流畅的github环境&#xff08;以便于快速拉取插件&#xff09;&#xff0c;可以使用代理或是配置Github SSH key 本文…...

Windows管理内存的3种方式——堆、虚拟内存、共享内存

一、操作系统管理内存概述 在 Windows 操作系统中&#xff0c;每个进程都被分配了 4GB 的虚拟地址空间&#xff0c;这被称为进程的虚拟地址空间。虚拟地址空间提供了一个抽象的地址空间&#xff0c;使得每个进程都可以认为它拥有自己的独立内存空间。这个虚拟地址空间被分为两…...

PCM/FM解调原理与Matlab算法仿真

调制的作用是将调制信息的频谱从低频搬移到高频,以适合信道传输。关于调制的原理,在上一节中已经讲过了。在这一节中,主要讲解FM的解调原理。与调制相对应的是在接收端需要解调过程将调制信息复原,所以解调是影响通信系统性能的重要技术。 解调方法按照是否需要载波恢复的…...

我的『1024』创作纪念日

目录 ◐机缘 ◑收获 ◐日常 ◑成就 ◐憧憬 记得&#xff0c;2020年07月22日我撰写了第1篇技术博客&#xff1a;《遗传算法实例解析》在这平凡的一天&#xff0c;我赋予了它不平凡的意义也许是立志成为一名专业T作者、也许是记录一段刚实践的经验但在那一刻&#xff0c;我已…...

Python ---> 衍生的数据技术

我的个人博客主页&#xff1a;如果’真能转义1️⃣说1️⃣的博客主页 关于Python基本语法学习---->可以参考我的这篇博客&#xff1a;《我在VScode学Python》 随着人工智能技术的发展&#xff0c;挖掘和分析商业运用大数据已经成为一种推动应用&#xff0c; 推动社会发展起着…...

【27】linux进阶——rpm软件包的管理

大家好&#xff0c;这里是天亮之前ict&#xff0c;本人网络工程大三在读小学生&#xff0c;拥有锐捷的ie和红帽的ce认证。每天更新一个linux进阶的小知识&#xff0c;希望能提高自己的技术的同时&#xff0c;也可以帮助到大家 另外其它专栏请关注&#xff1a; 锐捷数通实验&…...

HTTP第六讲——键入网址再按下回车,后面究竟发生了什么?

使用 IP 地址访问 Web 服务器 首先我们运行 www 目录下的“start”批处理程序&#xff0c;启动本机的 OpenResty 服务器&#xff0c;启动后可以用“list”批处理确认服务是否正常运行。 然后我们打开 Wireshark&#xff0c;选择“HTTP TCP port(80)”过滤器&#xff0c;再鼠标…...

layui目录和项目引入

1.目录结构如下 ├─css //css目录 │ │─modules //模块css目录&#xff08;一般如果模块相对较大&#xff0c;我们会单独提取&#xff0c;比如下面三个&#xff1a;&#xff09; │ │ ├─laydate │ │ ├─layer │ │ └─layim │ └─layui.css //核心样式文件…...

Ubuntu22.04 将EFI启动分区迁移到另一块硬盘

机器上有两块硬盘, 一块已经安装了Win10, 另一块新装Ubuntu22.04, 在新硬盘上划分分区的时候, 有分出256M给 BOOT EFI, 但是安装的时候没注意, 启动分区不知道怎的跑到 Windows 所在的硬盘上了 记录一下将 /boot/efi 分区迁移至 Ubuntu 所在硬盘, 并创建 Grub 的记录. 预留的…...

只要学会这些AI工具,一个人就是一家营销咨询公司

本教程收集于:AIGC从入门到精通教程 只要学会这些AI工具,一个人就是一家营销咨询公司 随着AI工具的不断涌现,您只需掌握市面上热门的AI工具,便可独自开展营销咨询公司。通过一系列AI工具,您可以为企业提供全案服务,收获丰厚回报。 例如,在协助一家美妆初创公司出海时,…...

[离散数学] 函数

文章目录 函数判断函数的条件复合函数复合函数的性质 逆函数 函数 判断函数的条件 dom F A ⇔ \Leftrightarrow ⇔所有x 都有 F&#xff08;x&#xff09;与之对应 有唯一的与其对应 < x , y > ∈ f ∧ < y , z > ∈ f ⇒ y z <x,y>\in f \land <y,z…...

好家伙,又一份牛逼笔记面世了...

最近网传的一些裁员的消息&#xff0c;搞的人心惶惶。已经拿到大厂offer的码友来问我&#xff1a;大厂还能去&#xff0c;去了会不会被裁。 还在学习的网友来问我&#xff1a;现在还要冲互联网么&#xff1f; 我是认为大家不用恐慌吧&#xff0c;该看啥看啥&#xff0c;该学啥…...

基于nodejs+vue3 的高仿网易云音乐

大家好&#xff0c;我是小寻&#xff0c;欢迎大家关注我的公众号&#xff1a;工具优选&#xff0c;加入前端、java群聊哦&#xff01; 今天给大家分享一个超高水准的项目&#xff1a;基于nodejsvue3研发的高仿网易云音乐&#xff0c;项目内容出自寻码网&#xff01; 技术栈&a…...

MySQL数据库用户管理以及数据库用户授权

一、数据库用户管理 1、新建用户 CREATE USER 用户名来源地址 [IDENTIFIED BY [PASSWORD] 密码]; ---------------------------------------------------------------------------------------------------------- 用户名&#xff1a;指定将创建的用户名 来源地址&#xff1a…...

全面分析生物技术的优缺点以及应用场景

一、 引言 生物识别技术具有不可撤销性、高度便利性和较低错误率等优势&#xff0c;在安全领域中也备受瞩目。然而&#xff0c;对于生物识别技术在应对安全挑战方面的可靠性和有效性&#xff0c;但争议并未被完全解决 二、生物识别技术的介绍 所谓生物识别技术就是&#xff0c;…...

OpenAI是什么?

OpenAI是一家人工智能技术公司&#xff0c;成立于2015年&#xff0c;总部位于美国旧金山。它的创始人包括埃隆马斯克等多名知名人士&#xff0c;公司的目标是推进人工智能技术的发展&#xff0c;同时确保人工智能的发展不会对人类造成负面影响。 OpenAI在研究和开发各种人工智能…...

量子计算——新兴领域的前沿技术

随着人类社会文明的不断进步&#xff0c;计算技术也在不断发展。传统计算机在过去的几十年中快速发展&#xff0c;计算速度、存储能力等方面发生了天翻地覆的变化。但随着大数据、人工智能、区块链等新兴领域的迅速崛起&#xff0c;传统计算机的发展似乎面临了瓶颈。在这样的背…...

.Net平台下OpenGL绘制图形(1)(VS2019,Winform,C#)

1、介绍 OpenGL&#xff08;英语&#xff1a;Open Graphics Library&#xff0c;译名&#xff1a;开放图形库或者“开放式图形库”&#xff09;是用于渲染2D、3D矢量图形的跨语言、跨平台的应用程序编程接口&#xff08;API&#xff09;。这个接口由近350个不同的函数调用组成…...