9月大型语言模型研究论文总结
大型语言模型(llm)在今年发展迅速,随着新一代模型不断地被开发,研究人员和工程师了解最新进展变得非常重要。本文总结9-10月期间发布了一些重要的LLM论文。
这些论文涵盖了一系列语言模型的主题,从模型优化和缩放到推理、基准测试和增强性能。最后部分讨论了有关安全训练并确保其行为保持有益的论文。
优化与扩展
Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning
https://arxiv.org/abs/2310.03094

像GPT-4这样的大型语言模型(llm)在各种任务中表现出了卓越的性能,但是这种强大的性能通常伴随着使用付费API服务的高昂费用。
在本文中,作者研究了构建LLM级联以节省使用LLM的成本,特别是用于执行推理(例如,数学,因果关系)任务。
级联管道遵循的理论是,简单的问题可以通过较弱但更实惠的LLM来解决,而只有具有挑战性的问题才需要更强大且更昂贵的LLM。
为了实现这一决策,他们将较弱LLM的“答案一致性”视为问题难度的信号,并提出了几种答案抽样和一致性检查方法,包括一种利用两种思维表示(即Chain-of-Thought 和 Program-of-Thought)的混合方法。
通过在六个推理基准数据集上的实验,分别使用gpt -3.5 turbo和GPT-4作为较弱和较强的LLM,证明提出的LLM级联可以达到与单独使用较强LLM相当的性能,而成本仅为其40%。
EcoAssistant: Using LLM Assistant More Affordably and Accurately
https://arxiv.org/abs/2310.03046

用户要求大型语言模型(llm)作为助手来回答需要外部知识的查询;他们会询问某个城市的天气、股票价格,甚至是他们所在社区的具体位置。
这些查询需要LLM生成调用外部api代码来回答用户的问题,但是LLM很少在第一次尝试时生成正确的代码,需要在执行结果上进行迭代的优化。这导致高查询量可能会很昂贵。
在这项工作中,作者贡献了一个框架,EcoAssistant,使LLM能够更经济、更准确地回答代码驱动的查询。EcoAssistant包含三个组件:
首先,它允许LLM助手与自动代码执行器对话,以迭代地改进代码或根据执行结果生成答案。
其次,我们使用LLM助手的层次结构,它试图用更弱、更便宜的LLM来回答查询。
第三,从过去成功的查询中检索解决方案,作为上下文演示,以帮助后续查询。
EcoAssistant在可负担性和准确性方面具有明显的优势,其成功率超过GPT-4 10个百分点,成本不到GPT-4的50%。
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
https://arxiv.org/abs/2309.16058

作者提出了任意模态增强语言模型(AnyMAL),这是一个可以对多种输入模态信号(即文本、图像、视频、音频、IMU运动传感器)进行推理,并生成文本响应的统一模型。
AnyMAL继承了包括LLaMA-2 (70B)在内的最先进llm的强大的基于文本的推理能力,并通过预训练的对齐器模块将特定于模态的信号转换为联合文本空间。
为了进一步加强多模态LLM的能力,他们使用手动收集的多模态指令集对模型进行了微调,涵盖简单问答之外的各种主题和任务。他们进行了全面的实证分析,包括人工和自动评估,并在各种多模式任务中展示了最先进的表现。
基于人类反馈的强化学习(RLHF)
A Long Way to Go: Investigating Length Correlations in RLHF
https://arxiv.org/abs/2310.03716

使用基于人类反馈的强化学习(RLHF)来校准大型语言模型取得了巨大的成功。开源好数据集和奖励模型使得在普通聊天设置之外的更广泛的实验成为可能,特别是使系统对网络问答、摘要和多回合对话等任务更“有用”。在优化有用性时,RLHF一直被观察到驱动模型产生更长的输出。
论文表明,优化响应长度是RLHF在这些设置中报告的改进背后的重要因素。他们研究了在三个开源的数据集上训练的奖励模型的奖励和长度之间的关系。发现长度与奖励密切相关,奖励分数的提高主要是通过改变输出长度的分布来驱动的。
然后探索在RL和奖励模式学习期间的干预措施,是否能在不增加长度的情况下实现与RLHF相同的下游改善。虽然干预措施减轻了长度的增加,但它们并不是在不同的环境下都有效。
论文还发现即使运行RLHF时仅基于长度的奖励也能再现初始策略模型的大部分下游改进,这表明在这些设置下的奖励模型还有很长的路要走。
推理
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning
https://arxiv.org/abs/2310.03731

最近发布的GPT-4代码解释器在解决具有挑战性的数学问题方面表现出了非凡的熟练程度,这主要归功于它能够无缝地使用自然语言进行推理,生成代码,执行代码,并根据执行输出继续进行推理。
论文提出了一种方法来微调开源语言模型,使他们能够使用代码来建模和推导数学方程,从而提高他们的数学推理能力。
其中包含一种生成新颖的高质量数学问题及其基于代码的解决方案数据集的方法,称为mathcodedirective。每个解决方案都交织着自然语言、代码和执行结果。我们还介绍了一种定制的监督微调和推理方法。
这种方法产生了MathCoder模型,这是一组能够生成基于代码的解决方案的模型,用于解决具有挑战性的数学问题。MathCoder模型在MATH(45.2%)和GSM8K(83.9%)数据集上获得了最先进的分数,大大优于其他开源替代方案。MathCoder模型不仅在GSM8K和MATH上超过ChatGPT-3.5和PaLM-2,而且在竞赛级别的MATH数据集上也优于GPT-4。
Large Language Models Cannot Self-Correct Reasoning Yet
https://arxiv.org/abs/2310.01798
大型语言模型(llm)已经成为一项突破性的技术,在各种应用程序中具有无与伦比的文本生成能力。然而对其生成内容的准确性和适当性的关注仍然存在。
论文提出了一种自我纠正的方法,作为这些问题的补救。研究的核心是内在自我纠正的概念,即LLM试图仅根据其固有能力纠正其初始反应,而不依赖外部反馈。
在推理的情况下,研究表明,LLM很难在没有外部反馈的情况下自我纠正他们的反应,有时他们的表现在自我纠正后的指标下降。根据这些见解,作者对该领域的未来研究和实际应用提出了建议。
Large Language Models as Analogical Reasoners
https://arxiv.org/abs/2310.01714

语言模型的思维链(CoT)提示在推理任务中展示了令人印象深刻的性能,但通常需要标记为推理过程的范例。
论文引入了一种新的提示方法,类比提示,它可以自动引导大型语言模型的推理过程。类比推理是一种认知过程,在这种认知过程中,人类从相关的过去经验中汲取知识来解决新问题。我们的方法受到类比推理的启发,促使语言模型在继续解决给定问题之前,在上下文中自我生成相关的范例或知识。
这种方法有几个优点:它避免了标记或检索样本的需要,提供了通用性和方便性;它还可以为每个问题定制生成的示例和知识,提供适应性。实验结果表明,论文的方法在各种推理任务中都优于0-shot CoT和手动较少-shot CoT,包括GSM8K和math中的数学问题解决,Codeforces中的代码生成以及BIG-Bench中的其他推理任务。
LLM进展与基准
How FaR Are Large Language Models From Agents with Theory-of-Mind?
https://arxiv.org/abs/2310.03051

“思考是为了行动。”人类可以通过观察推断他人的心理状态——一种被称为心理理论(ToM)的能力——然后根据这些推断采取实际行动。现有的问答基准(如ToMi)会向模型提问,以推断故事中人物的信念,但不会测试模型是否可以使用这些推断来指导它们的行动。
我们为大型语言模型(llm)提出了一种新的评估范式:Thinking for Doing (T4D),它要求模型将对他人心理状态的推断与社会场景中的行动联系起来。在T4D上的实验表明,像GPT-4和PaLM 2这样的llm似乎擅长追踪故事中人物的信念,但它们很难将这种能力转化为战略行动。
论文引入了一个零样本提示框架,预见和反映(FaR),它提供了一个推理结构,鼓励LLM预测未来的挑战,并对潜在的行动进行推理。
FaR将GPT-4在T4D中的表现从50%提高到71%,优于其他提示方法。此外FaR推广到不同的分布外的故事结构和场景,也需要ToM推理来选择一个动作,始终优于其他方法(包括少量的上下文学习)。
SmartPlay: A Benchmark for LLMs as Intelligent Agents
https://arxiv.org/abs/2310.01557

最近的大型语言模型(llm)已经证明了智能代理和下一代自动化的巨大潜力,但目前还没有一个系统的基准来评估llm作为代理的能力。
论文提出的SmartPlay:既是一个具有挑战性的基准,也是一种评估LLM作为代理的方法。SmartPlay由6款不同的游戏组成,包括石头剪刀布、河内塔和我的世界。
每个游戏都有一个独特的设置,提供多达20个评估设置和无限的环境变化。SmartPlay中的每个游戏都独特地挑战了智能LLM代理的9个重要功能的子集,包括对象依赖性推理,提前计划,空间推理,从历史中学习和理解随机性。每个游戏测试的能力集之间的区别使我们能够分别分析每个能力。
SmartPlay不仅可以作为评估LLM代理整体性能的严格测试场地,还可以作为识别当前方法差距的路线图。
提高LLM的表现
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation
https://arxiv.org/abs/2310.03214

大多数大型语言模型(llm)只训练一次,从不更新;因此,他们缺乏动态适应不断变化的世界的能力。在这项工作中,通过回答测试当前世界知识的问题的背景下,对LLM生成的文本的真实性进行了详细的研究。
引入了FreshQA,这是一种新的动态QA基准,包含各种各样的问答类型,包括需要快速变化的世界知识的问题,以及需要揭穿的错误前提的问题。
在一个双模式评估程序下对各种封闭和开源llm进行基准测试,通过涉及超过5万次判断的人类评估,揭示了这些模型的局限性,并展示了显著的改进空间:例如,所有模型(无论模型大小)都在与涉及快速变化的知识和错误前提的问题作斗争。
受这些结果的启发,论文提出了FreshPrompt,这是一种简单的少量提示方法,通过将从搜索引擎检索到的相关和最新信息整合到提示中,大大提高了LLM的性能。
实验表明,FreshPrompt优于竞争对手的搜索引擎增强提示方法,如Self-Ask (Press et al., 2022)以及商业系统,如Perplexity AI。对FreshPrompt的进一步分析表明,检索证据的数量及其顺序在影响llm生成答案的正确性方面起着关键作用。
此外,与鼓励冗长的答案相比,指导LLM生成简洁直接的答案有助于减少幻觉。
DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines
https://arxiv.org/abs/2310.03714
ML社区正在迅速探索提示语言模型(LMs)的技术,并将它们堆叠到解决复杂任务的管道中。但是现有的LM管道通常是使用硬编码的“提示模板”实现的,即通过反复试验发现的长字符串。
为了更系统地开发和优化LM管道,论文提出了DSPy,这是一个编程模型,它将LM管道抽象为文本转换图,即命令式计算图,其中通过声明性模块调用LM。DSPy模块是参数化的,这意味着它们可以学习(通过创建和收集演示)如何应用提示、调优、增强和推理技术的组合。
作者还设计了一个编译器,它将优化任何DSPy管道以最大化给定的度量。进行了两个案例研究,表明简洁的DSPy程序可以表达和优化复杂的LM管道,这些管道可以解释数学单词问题、处理多跳检索、回答复杂问题和控制代理循环。
在编译的几分钟内,几行DSPy允许GPT-3.5和llama2-13b-chat自引导管道,其性能优于标准的少样本提示(通常分别超过25%和65%)和专家创建的演示管道(分别高达5-46%和16-40%)。最重要的是,DSPy程序编译为开放和相对较小的lm,如770M-parameter T5和llama2-13b-chat,与依赖专家编写的专有GPT-3.5提示链的方法相比具有竞争力。
Enable Language Models to Implicitly Learn Self-Improvement From Data
https://arxiv.org/abs/2310.00898

大型语言模型(llm)在开放式文本生成任务中表现出了非凡的能力。但是这些任务固有的开放性意味着模型响应的质量总是有改进的空间。
为了应对这一挑战,人们提出了各种方法来LLM的性能。人们越来越关注使LLM能够自我提高其响应质量,从而减少对大量人工注释工作的依赖,以收集多样化和高质量的训练数据。基于提示的方法因其有效性、高效性和便捷性在自我完善方法中得到了广泛的探索。
但是这些方法通常需要明确而彻底地编写规则作为llm的输入。论文提出了一个隐式自我完善(PIT)框架,该框架从人类偏好数据中隐式学习改进目标。PIT只需要用于训练奖励模型的偏好数据,而无需额外的人力。
作者重新制定了基于人类反馈(RLHF)的强化学习的训练目标——不是对给定输入最大化响应质量,而是在参考响应的条件下最大化响应的质量差距。通过这种方式,PIT被隐式地训练,其改进目标是更好地与人类偏好保持一致。在两个真实数据集和一个合成数据集上的实验表明,该方法明显优于基于提示的方法。
法规与道德
HeaP: Hierarchical Policies for Web Actions using LLMs
https://arxiv.org/abs/2310.03720

大型语言模型(llm)已经证明了在少量和零样本设置中执行一系列指令跟随任务的卓越能力。
但是组合大型开放世界任务和跨网络界面的变化对于模型有巨大的挑战。作者通过利用llm将web任务分解为一组子任务来解决这些挑战,每个子任务都可以通过低级闭环策略来解决。
这些策略构成了跨任务的共享语法,也就是说,新的web任务可以表示为这些策略的组合。论文提出了一个新的框架,使用LLM的Web操作的分层策略(HeaP),它从演示中学习一组分层LLM提示,用于规划高级任务并通过一系列低级策略执行它们。
根据一系列web任务(包括miniwob++、WebArena、模拟航空公司CRM以及实时网站交互)的基线对HeaP进行了评估,并表明它能够使用更少的数据来优于先前的工作。
https://avoid.overfit.cn/post/fe5635accd16437aa7b4b6d7f2eea43f
作者:Youssef Hosni
相关文章:
9月大型语言模型研究论文总结
大型语言模型(llm)在今年发展迅速,随着新一代模型不断地被开发,研究人员和工程师了解最新进展变得非常重要。本文总结9-10月期间发布了一些重要的LLM论文。 这些论文涵盖了一系列语言模型的主题,从模型优化和缩放到推理、基准测试和增强性能…...
微信小程序--小程序框架
目录 前言: 一.框架基本介绍 1.整体结构: 2.页面结构: 3.生命周期: 4.事件系统: 5.数据绑定: 6.组件系统: 7.API: 8.路由: 9.模块化: 10.全局配置&…...
Java 全栈体系(三)
第一章 Java 基础语法 八、标识符 业内大多数程序员都在遵守阿里巴巴的命名规则。 1. 硬性要求 必须要这么做,否则代码会报错。 必须由数字、字母、下划线_、美元符号$组成。数字不能开头不能是关键字区分大小写的。 2. 软性建议 如果不这么做,代…...
爬虫学习日记第七篇(爬取github搜索仓库接口,其实不算爬虫)
github提供的搜索仓库的API https://api.github.com/ # 连接数据库 db mysql.connector.connect(host"***",user"***",password"***",database"***" ) # 创建游标 cursor db.cursor() # 从数据库中读取CVE ID cursor.execute("…...
子组件监听父组件消息,随之变化与不变化
父组件通过props传递给子组件消息,子组件有两种情况接收处理: 1、子组件监听父组件props的变化,同时随之变化【可以直接取props中的值展示,也可以监听值得变化处理】 2、子组件初始化时更新,随后不再随父组件变化 示…...
计算机操作系统面试题自用
什么是操作系统: 操作系统是管理硬件和软件的一种应用程序。操作系统是运行在计算机上最重要的一种软件 操作系统的主要功能 解释一下操作系统的主要目的是什么 操作系统是一种软件,它的主要目的有三种 1 管理计算机资源,这些资源包括 C…...
redis作为消息队列的缺点
Redis作为消息队列的不足。 1、基于内存 Redis是一种基于内存的数据库产品,这意味着数据存储在内存中,当内存不足时,Redis会使用基于磁盘的虚拟内存来存储数据。虽然这种虚拟内存机制可以增加Redis的存储容量,但也会降低Redis的…...
Redis五大数据类型的底层设计
SDS 无论是 Redis 的 Key 还是 Value,其基础数据类型都是字符串。虽然 Redis是使用标准 C 语言开发的,但并没有直接使用 C 语言中传统的字符串表示,而是自定义了一 种字符串。这种字符串本身的结构比较简单,但功能却非常强大&…...
logback的简单配置详解
<?xml version"1.0" encoding"UTF-8"?> <!--logback配置的根元素。scantrue表示logback将定期扫描配置文件以检测更改。scanPeriod"30 Period" 扫描间隔为30s--> <configuration scan"true" scanPeriod"30 seco…...
TatukGIS Developer Kernel使用教程:如何为FMX创建第一个应用程序
概述:TatukGIS Developer Kernel(DK)是一个用于开发自定义地理信息系统(GIS)应用程序以及解决方案的综合性软件开发工具包(SDK)。本篇文章主要介绍用DK11为FMX创建一个应用程序,现在…...
Ant Design Vue设置表格滚动 宽度自适应 不换行
Ant Design Vue设置表格滚动 宽度自适应 不换行 添加以下属性即可解决这个问题: <a-table :columns"columns" :data-source"list":pagination"false"bordered:scroll"{ x: max-content }" >...
在Linux上开启文件服务,需要安装并配置Samba
在Linux上开启文件服务,需要安装并配置Samba。以下是具体步骤: 安装Samba软件包:在终端中输入以下命令进行安装: 复制代码 sudo apt-get update && sudo apt-get install samba 配置Samba:编辑Samba配置文件…...
TypeScript 类型兼容性
TypeScript 类型兼容性 在前端开发中,使用 TypeScript 可以提供更强大的类型检查和类型安全。然而,了解 TypeScript 中的类型兼容性是至关重要的,因为它涉及如何处理不同类型之间的关系,以及在这些类型之间进行无缝的交互。本文将…...
【多线程】线程的状态
我们可以通过下面的这段代码来查看线程一共有哪几种状态 //线程的状态是一个枚举类型 Thread.State for(Thread.State state : Thread.State.values()){System.out.println(state); }NEW(新建状态): 当线程对象已经被创建,但是 s…...
pytorch 对图片进行归一化处理
如题,神经网络通常使用浮点数张量作为输入,我们要做的第一件事情就是将图片转化为浮点数,并且做归一化操作。 import torch import imageio import osdata_dirF:\\work\\deep_learning\\pytorch\\dlwpt-code-master\\data\\p1ch4\\image-cat…...
零售数据分析师熬夜整理:人、货、场、供、财这样做
在零售数据分析中,人、货、场、供、财数据分析非常重要,它们分别是指人员、商品、场所、供应和财务,对这些要素进行数据分析,可以更好地了解市场需求、优化商品供应链、调整销售策略和提高盈利能力。零售数据量大、分析指标多且复…...
基于SSM的学生选课管理系统
基于SSM的高校校园学生选课系统的设计与实现~ 开发语言:Java数据库:MySQL技术:SpringSpringMVCMyBatisVue工具:IDEA/Ecilpse、Navicat、Maven 系统展示 登录界面 专业管理 教师管理 课程管理 成绩管理 摘要 基于SSM的学生选课管…...
SQL注入漏洞
0x01 漏洞介绍 泛微e-office系统是标准、易用、快速部署上线的专业协同OA软件,国内协同OA办公领域领导品牌,致力于为企业用户提供专业OA办公系统、移动OA应用等协同OA整体解决方案。泛微e-office深谙改革之道以迎变革之机,沉心产品研发数十载…...
C++ wpf自制软件打包安装更新源码实例
程序示例精选 C wpf自制软件打包安装更新源码实例 如需安装运行环境或远程调试,见文章底部个人QQ名片,由专业技术人员远程协助! 前言 这篇博客针对《C wpf自制软件打包安装更新源码实例》编写代码,代码整洁,规则&…...
8月19日PMP成绩,预计10月16日公布!附查询入口、流程
PMP的考试成绩一般在考后6-8周即可查询,8月PMP的成绩预计会在北京时间10月16日晚上公布,具体时间以官方公告为准。 如何查询8月考试成绩? 渠道一:收到PMI邮件提醒 当你注册PMI所使用的邮箱收到一封PMI发来的,标题为…...
【杂谈】-递归进化:人工智能的自我改进与监管挑战
递归进化:人工智能的自我改进与监管挑战 文章目录 递归进化:人工智能的自我改进与监管挑战1、自我改进型人工智能的崛起2、人工智能如何挑战人类监管?3、确保人工智能受控的策略4、人类在人工智能发展中的角色5、平衡自主性与控制力6、总结与…...
CTF show Web 红包题第六弹
提示 1.不是SQL注入 2.需要找关键源码 思路 进入页面发现是一个登录框,很难让人不联想到SQL注入,但提示都说了不是SQL注入,所以就不往这方面想了 先查看一下网页源码,发现一段JavaScript代码,有一个关键类ctfs…...
大语言模型如何处理长文本?常用文本分割技术详解
为什么需要文本分割? 引言:为什么需要文本分割?一、基础文本分割方法1. 按段落分割(Paragraph Splitting)2. 按句子分割(Sentence Splitting)二、高级文本分割策略3. 重叠分割(Sliding Window)4. 递归分割(Recursive Splitting)三、生产级工具推荐5. 使用LangChain的…...
华为OD机试-食堂供餐-二分法
import java.util.Arrays; import java.util.Scanner;public class DemoTest3 {public static void main(String[] args) {Scanner in new Scanner(System.in);// 注意 hasNext 和 hasNextLine 的区别while (in.hasNextLine()) { // 注意 while 处理多个 caseint a in.nextIn…...
反射获取方法和属性
Java反射获取方法 在Java中,反射(Reflection)是一种强大的机制,允许程序在运行时访问和操作类的内部属性和方法。通过反射,可以动态地创建对象、调用方法、改变属性值,这在很多Java框架中如Spring和Hiberna…...
LLM基础1_语言模型如何处理文本
基于GitHub项目:https://github.com/datawhalechina/llms-from-scratch-cn 工具介绍 tiktoken:OpenAI开发的专业"分词器" torch:Facebook开发的强力计算引擎,相当于超级计算器 理解词嵌入:给词语画"…...
html-<abbr> 缩写或首字母缩略词
定义与作用 <abbr> 标签用于表示缩写或首字母缩略词,它可以帮助用户更好地理解缩写的含义,尤其是对于那些不熟悉该缩写的用户。 title 属性的内容提供了缩写的详细说明。当用户将鼠标悬停在缩写上时,会显示一个提示框。 示例&#x…...
关键领域软件测试的突围之路:如何破解安全与效率的平衡难题
在数字化浪潮席卷全球的今天,软件系统已成为国家关键领域的核心战斗力。不同于普通商业软件,这些承载着国家安全使命的软件系统面临着前所未有的质量挑战——如何在确保绝对安全的前提下,实现高效测试与快速迭代?这一命题正考验着…...
【7色560页】职场可视化逻辑图高级数据分析PPT模版
7种色调职场工作汇报PPT,橙蓝、黑红、红蓝、蓝橙灰、浅蓝、浅绿、深蓝七种色调模版 【7色560页】职场可视化逻辑图高级数据分析PPT模版:职场可视化逻辑图分析PPT模版https://pan.quark.cn/s/78aeabbd92d1...
A2A JS SDK 完整教程:快速入门指南
目录 什么是 A2A JS SDK?A2A JS 安装与设置A2A JS 核心概念创建你的第一个 A2A JS 代理A2A JS 服务端开发A2A JS 客户端使用A2A JS 高级特性A2A JS 最佳实践A2A JS 故障排除 什么是 A2A JS SDK? A2A JS SDK 是一个专为 JavaScript/TypeScript 开发者设计的强大库ÿ…...
