当前位置: 首页 > news >正文

2024年1月15日Arxiv最热论文推荐:斯坦福LLM精准微调新框架、GPT不愿承认回答错误、速度快15倍的3D全景分割新突破

本文整理了今日发表在ArXiv上的AI论文中最热门的TOP5。

论文解读、论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台上的智能体 「AI论文解读达人」提供。

如需查看其他热门论文,欢迎移步赛博马良 ^_^

TOP1

APAR: LLMs Can Do Auto-Parallel Auto-Regressive Decoding

标题:

清华大学让大语言模型自动并行自回归解码,速度提升高达4倍!

标签:

Tsinghua、NLP

作者:

Mingdao Liu, Aohan Zeng, Bowen Wang, Peng Zhang, Jie Tang, Yuxiao Dong

推荐理由:

这篇论文由清华大学发表,且标题提到了大型语言模型(LLMs)的自动并行自回归解码(Auto-Parallel Auto-Regressive Decoding),这是一个当前AI领域的热点话题,同时也涉及模型效率提升,这可能意味着在模型推理过程中的一个重要进步。清华大学是一个有影响力的机构,这也增加了论文的吸引力。

论文简介:
大型语言模型(LLMs)的大规模采用要求高效的部署策略。然而,自回归解码过程是大多数LLMs生成文本的基础,它给实现高效服务带来了挑战。在这项工作中,我们引入了一种并行自回归生成方法。通过在包含层次结构的通用领域数据上进行指导调优,我们使LLMs能够独立规划其生成过程,并执行自动并行自回归(APAR)生成,显著减少了生成步骤的数量。APAR本身可以实现高达2倍的加速,当与推测性解码结合时,加速比可以达到高达4倍。此外,APAR在生成过程中减少了键值缓存的消耗和注意力计算。与最先进的服务框架相比,在高吞吐量场景下,这导致吞吐量增加了20-70%,延迟减少了20-35%。

论文解读链接:

https://www.saibomaliang.com/generate?session_id=8939e4ab-3dcd-41a6-be41-1815133918ee

TOP2

An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models

标题:
成本降半!斯坦福联合华盛顿大学打造大语言模型精准微调新框架

标签:
Stanford、Microsoft、NLP、ML

作者:
Gantavya Bhatt, Yifang Chen, Arnav M. Das, Jifan Zhang, Sang T. Truong, Stephen Mussmann, Yinglun Zhu, Jeffrey Bilmes, Simon S. Du, Kevin Jamieson, Jordan T. Ash, Robert D. Nowak

推荐理由:
这篇论文由斯坦福大学和微软联合发表,探讨了大型语言模型的标签高效微调,这是一个非常实用且具有商业价值的研究方向。论文的合作机构包括顶尖大学和大公司,这将吸引更多的关注。

论文简介:
在指令数据集上进行的有监督微调(Supervised finetuning, SFT)在实现现代大型语言模型(Large Language Models, LLMs)观察到的卓越零样本泛化能力方面发挥了关键作用。然而,为指令生成高质量响应所需的注释工作变得代价高昂,特别是随着指令数据集所涵盖的任务数量不断增加。主动学习在从未标注的样本池中识别有用的样本子集以进行注释方面是有效的,但其高昂的计算成本仍然是阻碍其在LLMs背景下广泛应用的障碍。为了减轻SFT的注释成本并规避主动学习的计算瓶颈,我们提出使用实验设计。实验设计技术选择最具信息量的样本进行标注,并通常最大化某种不确定性和/或多样性的概念。在我们的工作中,我们实现了一个框架,评估了几种现有的和新颖的实验设计技术,并发现这些方法在标签效率上始终能够显著提升,同时计算开销很小。在生成性任务上,我们的方法仅需随机抽样所需注释成本的50%即可达到相同的泛化性能。

论文解读链接:

https://www.saibomaliang.com/generate?session_id=736178ba-b3b2-4420-a929-12388281f82b

TOP3

Scalable 3D Panoptic Segmentation With Superpoint Graph Clustering

标题:

3D全景分割新突破!SuperCluster模型训练速度快15倍,参数量仅为竞品的1/30

标签:
CV、3DV2024

作者:
Damien Robert, Hugo Raguet, Loic Landrieu

推荐理由:
这篇论文被接受在3DV 2024会议上做口头报告,这是一个有影响力的会议,且论文涉及的3D全景分割是一个热门的研究方向,具有很好的应用前景,特别是在自动驾驶和机器人领域。

论文简介:

我们提出了一种高效的大型3D点云全景分割方法,通过将这一任务重新定义为一个可扩展的图聚类问题。这种方法只需使用局部辅助任务进行训练,从而消除了训练过程中资源密集型的实例匹配步骤。此外,我们的公式可以轻松适应超点(superpoint)范式,进一步提高效率。这使得我们的模型能够在单次推理中处理包含数百万点和数千个对象的场景。我们的方法,称为SuperCluster,为两个室内扫描数据集实现了新的全景分割性能标准。我们还为两个大规模移动测绘基准:KITTI-360和DALES,设定了首个性能标准。我们的模型只有209209

209209

k参数,比最佳竞争方法小了30多倍,并且训练速度快达15倍。我们的代码和预训练模型可在以下位置获取。

论文解读链接:

https://www.saibomaliang.com/generate?session_id=cfe1e3c4-df92-41e8-aa0f-133079459b24

TOP4

Synthetic Data Generation Framework, Dataset, and Efficient Deep Model for Pedestrian Intention Prediction

标题:

安全驾驶新突破:PedGNN模型预测行人意图,实时保护每一步!
标签:
ML、CV、IEEE International Conference on Systems 2023

作者:
Muhammad Naveed Riaz, Maciej Wielgosz, Abel Garcia Romera, Antonio M. Lopez

推荐理由:

这篇论文将在IEEE国际智能交通系统会议上发表,这是一个与实际应用紧密相关的会议。论文提出了一个用于行人意图预测的合成数据生成框架和高效深度模型,这是一个具有很高社会价值和应用前景的研究。

论文简介:
行人意图预测对于自动驾驶至关重要。特别是,了解行人是否打算在自车前方穿越是执行安全舒适操作的核心。从连续图像中预测此类意图的准确快速模型的创建具有挑战性。导致这一挑战的一个因素是缺乏具有多样化穿越和非穿越(C/NC)场景的数据集。我们通过引入一个名为ARCANE的框架来解决这种稀缺性,该框架允许以编程方式生成由C/NC视频剪辑样本组成的合成数据集。作为一个例子,我们使用ARCANE生成了一个大型且多样化的数据集,名为PedSynth。我们将展示PedSynth如何补充广泛使用的真实世界数据集,例如JAAD和PIE,从而使得C/NC预测模型更加准确。考虑到C/NC预测模型的车载部署,我们还提出了一个名为PedGNN的深度模型,该模型快速且内存占用非常低。PedGNN基于GNN-GRU架构,它接受一系列行人骨架作为输入来预测穿越意图。

论文解读链接:

https://www.saibomaliang.com/generate?session_id=8f1334da-241b-4a43-817b-b80625ce50fb

TOP5

Relying on the Unreliable: The Impact of Language Models’ Reluctance to Express Uncertainty

标题:

斯坦福最新研究:GPT不愿承认回答错误,高置信回答错误率高达47%

标签:
Carnegie Mellon University、Allen Institute for AI、NLP、ML、IR

作者:
Kaitlyn Zhou, Jena D. Hwang, Xiang Ren, Maarten Sap

推荐理由:
这篇论文由斯坦福大学等单位发表,探讨了人类与LM互动面临的一系列新的安全风险,并提出了设计建议和未来的缓解策略。论文的机构包括顶尖大学,论文涉及的是一个热门的研究方向,具有很好的应用前景。

论文简介:

随着自然语言成为人工智能交互的默认界面,LM(语言模型)在下游应用中适当传达不确定性的需求变得至关重要。在这项工作中,我们研究了LM如何通过自然语言融入对其回应的信心,以及下游用户如何对LM表达的不确定性做出反应。我们检查了公开部署的模型,并发现LM在回答问题时即使产生错误的回应也无法表达不确定性。LM可以被明确提示表达信心,但倾向于过度自信,导致高错误率(平均47%)的自信回应。我们通过进行人类实验来测试LM过度自信的风险,并展示用户是否依赖于LM生成的内容,不论它们是否被标记为确定。最后,我们调查了在RLHF(强化学习与人类反馈)对齐中使用的偏好注释数据集,并发现人类对带有不确定性的文本存在偏见。我们的工作突出了人类与LM互动面临的一系列新的安全风险,并提出了设计建议和未来的缓解策略。

论文解读链接:
https://www.saibomaliang.com/generate?session_id=c159f895-a9c3-4837-bf5f-9c159c95bec0

本文整理了今日发表在ArXiv上的AI论文中最热门的TOP5。

论文解读、论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台上的智能体 「AI论文解读达人」 提供。

如需查看其他热门论文,欢迎移步赛博马良 ^_^

相关文章:

2024年1月15日Arxiv最热论文推荐:斯坦福LLM精准微调新框架、GPT不愿承认回答错误、速度快15倍的3D全景分割新突破

本文整理了今日发表在ArXiv上的AI论文中最热门的TOP5。 论文解读、论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台上的智能体 「AI论文解读达人」提供。 如需查看其他热门论文,欢迎移步赛博马良 ^_^ TOP1 APAR: LLMs Can Do Auto-Paral…...

1.5 面试经典150题 - 轮转数组

轮转数组 给定一个整数数组 nums,将数组中的元素向右轮转 k 个位置,其中 k 是非负数。 注意:本题需要原地操作 class Solution(object):def rotate(self, nums, k):""":type nums: List[int]:type k: int:rtype: None Do not…...

Linux的基础命令学习

pwd - 显示当前工作目录的路径 cd - 切换工作目录,ls - 列出当前目录的文件和子目录 rm - 删除文件或目录 mkdir - 创建新目录 rm - 删除目录 nano/vi - 编辑文本文件,按Enter键进入 之后按i键就可以进入写入模式 之后输入文字以后按Esc键与:q就不保…...

个人数据备份方案分享(源自一次悲惨经历)

文章目录 1 起源2 备份架构2.1 生活照片2.2 生活录音2.3 微信文件2.4 工作文件2.5 笔记、影视音乐、书籍 3 使用工具介绍3.1 小米云服务3.2 中国移动云盘3.3 小米移动硬盘(1T)3.4 FreeFileSync 4 总结 1 起源 本文的灵感源于我个人的一次不幸遭遇&#…...

SpringBoot教程(八) | SpringBoot统一结果封装

SpringBoot教程(八) | SpringBoot统一结果封装 经过了前面几篇文章,SpringBoot中MVC相关的配置其实都已经差不多了,接下来就可以完全进入接口开发阶段了。前面我们写过几个接口,虽然都加了RestController注解,相当于统一了我们的…...

Ubuntu 22.04 安装Fail2Ban

Fail2Ban是一种用来防止暴力破解的工具,一般要和iptables配合使用。其原理是读取系统日志,并通过正则表达式匹配,监控IP在一段时间内的登录尝试、身份验证失败日志等并进行计数。超过阈值则进行IP封禁,过一段时间后再解封。 总的…...

Ubuntu 22.04 编译安装 Qt mysql驱动

参考自 Ubuntu20.04.3 QT5.15.2 MySQL驱动编译 Ubuntu 18.04 编译安装 Qt mysql驱动 下边这篇博客不是主要参考的, 但是似乎解决了我的难题(找不到 libmysqlclient.so) ubuntu18.04.2 LTS 系统关于Qt5.12.3 无法加载mysql驱动,需要重新编译MYSQL数据库驱动的问题以…...

Mindspore 公开课 - CodeGeeX

CodeGeeX: 多语言代码生成模型 CodeGeeX 是一个具有130亿参数的多编程语言代码生成预训练模型。CodeGeeX采用华为MindSpore框架实现,在鹏城实验室“鹏城云脑II”中的192个节点(共1536个国产昇腾910 AI处理器)上训练而成。截至2022年6月22日&…...

说一下mysql的锁

1、全局锁: 影响整个数据库的锁。例如,当执行 FLUSH TABLES WITH READ LOCK; 命令时,会阻止其他用户写入数据库,但可以读取。全局锁简介 全局锁是一种跨所有数据库实例的锁。它可以确保在任何时刻,只有一个事务能够访问共享资源。全局锁通常用于以下场景: 并发性较高的场…...

rime中州韵小狼毫 日期/农历 时间 事件 节气 滤镜

教程目录:rime中州韵小狼毫须鼠管安装配置教程 保姆级教程 100增强功能配置教程 网络上但凡提到 rime中州韵小狼毫须鼠管输入法,总少不了智能时间,日期等炫技,可见这个便捷时间/日期输入功能是多么的受欢迎。作者也不落窠臼&…...

【前端】前后端的网络通信基础操作(原生ajax, axios, fetch)

概述 前后端网络请求工具 原生ajaxfetch apiaxios GET和POST请求 get只能发纯文本 post可以发不同类型的数据,要设置请求头,需要告诉服务器一些额外信息 测试服务器地址 有一些公共的测试 API 可供学习和测试用途。这些 API 允许你发送 HTTP 请求…...

Matter - 配置工厂数据(2)

部分关键名词参数简介 PASE(Passcode-Authenticated Session Establishment): 基于密码认证的会话建立,用于在 Commissioning 的时候 Commissioner 与 Matter Deivce 之间建立安全信道,生成对称加密密钥用于 Commissioning 后续通信消息进行加、解密和完…...

版本控制背景知识

版本控制背景知识 本文是关于 Git 系列文章的导读,我们先介绍一下版本控制的背景知识。 什么是版本控制 版本控制是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统。它将什么时候、什么人更改了文件的什么内容等信息如实记录下来…...

tensorflow报错: DNN library is no found

错误描述 如上图在执行程序的时候,会出现 DNN library is no found 的报错 解决办法 这个错误基本上说明你安装的 cudnn有问题,或者没有安装这个工具。 首先检测一下你是否安装了 cudnn 进入CUDA_HOME下,也就是进入你的cuda的驱动的安装目…...

DA14531-高级应用篇-用户如何开启OTA服务

文章目录 1. OTA相关文件2.OTA宏定义列表3.OTA主要函数接口4.OTA具体实施步骤5.总结1. OTA相关文件 1)app_suotar_task.c和app_suotar_task.h 2)app_suotar.c和app_suotar.h 2.OTA宏定义列表 宏定义注解CFG_PRF_SUOTAR用户开启SOTA功能BLE_SUOTA_RECEIVERSOTA功能服务CFG_S…...

国内镜像源配置方法(包括临时和永久方法)

国内镜像源: 阿里云 http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/豆瓣 http://pypi.douban.com/simplePython官方 https://pypi.python.org/simple/v2ex http://pypi.v2ex.com/simple/中国科学院 http://pypi.mi…...

数据结构二叉树--堆(数据结构实现和堆排序的一种实现)

堆是一个数据结构 逻辑结构:完全二叉树(要求父节点大于孩子节点或者小于孩子节点) 存储结构:顺序存储 typedef int DataType; typedef struct Heap{DataType*data;int size;int capacity; }Heap;void InitHeap(Heap*pH) {asser…...

【Linux】 nohup命令使用

nohup命令 nohup是Linux和Unix系统中的一个命令,其作用是在终端退出时,让进程在后台继续运行。它的全称为“no hang up”,意为“不挂起”。nohup命令可以让你在退出终端或关闭SSH连接后继续运行命令。 nohup 命令,在默认情况下&…...

多维时序 | Matlab实现GRO-CNN-LSTM-Attention淘金算法优化卷积神经网络-长短期记忆网络结合注意力机制多变量时间序列预测

多维时序 | Matlab实现GRO-CNN-LSTM-Attention淘金算法优化卷积神经网络-长短期记忆网络结合注意力机制多变量时间序列预测 目录 多维时序 | Matlab实现GRO-CNN-LSTM-Attention淘金算法优化卷积神经网络-长短期记忆网络结合注意力机制多变量时间序列预测效果一览基本介绍程序设…...

SQL-DQL-基础查询

🎉欢迎您来到我的MySQL基础复习专栏 ☆* o(≧▽≦)o *☆哈喽~我是小小恶斯法克🍹 ✨博客主页:小小恶斯法克的博客 🎈该系列文章专栏:重拾MySQL 🍹文章作者技术和水平很有限,如果文中出现错误&am…...

微信小程序之bind和catch

这两个呢,都是绑定事件用的,具体使用有些小区别。 官方文档: 事件冒泡处理不同 bind:绑定的事件会向上冒泡,即触发当前组件的事件后,还会继续触发父组件的相同事件。例如,有一个子视图绑定了b…...

日语学习-日语知识点小记-构建基础-JLPT-N4阶段(33):にする

日语学习-日语知识点小记-构建基础-JLPT-N4阶段(33):にする 1、前言(1)情况说明(2)工程师的信仰2、知识点(1) にする1,接续:名词+にする2,接续:疑问词+にする3,(A)は(B)にする。(2)復習:(1)复习句子(2)ために & ように(3)そう(4)にする3、…...

在HarmonyOS ArkTS ArkUI-X 5.0及以上版本中,手势开发全攻略:

在 HarmonyOS 应用开发中,手势交互是连接用户与设备的核心纽带。ArkTS 框架提供了丰富的手势处理能力,既支持点击、长按、拖拽等基础单一手势的精细控制,也能通过多种绑定策略解决父子组件的手势竞争问题。本文将结合官方开发文档&#xff0c…...

在rocky linux 9.5上在线安装 docker

前面是指南,后面是日志 sudo dnf config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sudo dnf install docker-ce docker-ce-cli containerd.io -y docker version sudo systemctl start docker sudo systemctl status docker …...

连锁超市冷库节能解决方案:如何实现超市降本增效

在连锁超市冷库运营中,高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术,实现年省电费15%-60%,且不改动原有装备、安装快捷、…...

C# 类和继承(抽象类)

抽象类 抽象类是指设计为被继承的类。抽象类只能被用作其他类的基类。 不能创建抽象类的实例。抽象类使用abstract修饰符声明。 抽象类可以包含抽象成员或普通的非抽象成员。抽象类的成员可以是抽象成员和普通带 实现的成员的任意组合。抽象类自己可以派生自另一个抽象类。例…...

Axios请求超时重发机制

Axios 超时重新请求实现方案 在 Axios 中实现超时重新请求可以通过以下几种方式: 1. 使用拦截器实现自动重试 import axios from axios;// 创建axios实例 const instance axios.create();// 设置超时时间 instance.defaults.timeout 5000;// 最大重试次数 cons…...

tree 树组件大数据卡顿问题优化

问题背景 项目中有用到树组件用来做文件目录,但是由于这个树组件的节点越来越多,导致页面在滚动这个树组件的时候浏览器就很容易卡死。这种问题基本上都是因为dom节点太多,导致的浏览器卡顿,这里很明显就需要用到虚拟列表的技术&…...

Java毕业设计:WML信息查询与后端信息发布系统开发

JAVAWML信息查询与后端信息发布系统实现 一、系统概述 本系统基于Java和WML(无线标记语言)技术开发,实现了移动设备上的信息查询与后端信息发布功能。系统采用B/S架构,服务器端使用Java Servlet处理请求,数据库采用MySQL存储信息&#xff0…...

GruntJS-前端自动化任务运行器从入门到实战

Grunt 完全指南:从入门到实战 一、Grunt 是什么? Grunt是一个基于 Node.js 的前端自动化任务运行器,主要用于自动化执行项目开发中重复性高的任务,例如文件压缩、代码编译、语法检查、单元测试、文件合并等。通过配置简洁的任务…...