计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28
目录
文章目录
- 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28
- 目录
- 前言
- 1. Cognitive phantoms in LLMs through the lens of latent variables
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数:
- 2. Steward: Natural Language Web Automation
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数:
- 3. RAM2C: A Liberal Arts Educational Chatbot based on Retrieval-augmented Multi-role Multi-expert Collaboration
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数:
- 4. SEAL: Suite for Evaluating API-use of LLMs
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数:
- 5. Qualitative Insights Tool (QualIT): LLM Enhanced Topic Modeling
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数:
- 6. M^2PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning
- 摘要
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数:★★★★☆
- 7. CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数:★★★★☆
- 8. A Comprehensive Evaluation of Large Language Models on Mental Illnesses
- 文章分析总结
- 文章标题翻译
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数:
- 9. AsthmaBot: Multi-modal, Multi-Lingual Retrieval Augmented Generation For Asthma Patient Support
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数:★★★★☆
- 10. In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数:★★★★☆
- 后记
前言
这期内容中,我们对近期大模型+多模态,大模型 + 教育,大模型+医疗几个方向的研究工作做简要介绍。
1. Cognitive phantoms in LLMs through the lens of latent variables
Authors: Sanne Peereboom, Inga Schwabe, Bennett Kleinberg
https://arxiv.org/abs/2409.15324
从潜在变量视角看大型语言模型中的认知幻影
摘要
本研究探讨了大型语言模型(LLMs)的行为,特别是它们在心理测量问卷中表现出的人类特质。研究者通过比较人类与三种LLMs的潜在人格结构,发现为人类设计的问卷可能无法有效测量LLMs中的相似结构,甚至这些结构可能根本不存在于LLMs中。研究结果强调了避免在LLMs中追逐认知幻影的必要性。
研究背景
随着LLMs在现实世界中应用的增加,理解其行为变得尤为重要。它们的规模和复杂性使得传统评估方法变得复杂,因此需要采用心理学领域的新方法。近期的研究表明LLMs在心理测试中表现出类似人类的特质,但这种方法的有效性存在问题。
问题与挑战
- 问题: 如何有效评估LLMs的心理特质?
- 挑战: 现有的心理测量工具是否适用于LLMs,以及这些工具测量的潜在特质是否真实存在于LLMs中。
创新点
- 使用两种经过验证的性格问卷对比人类与LLMs的潜在人格结构。
- 探讨了问卷设计对于人类是否也适用于LLMs,并评估了这些构建在LLMs中的存在性。
算法模型
- 模型: 使用了三种GPT模型(GPT-3.5-turbo-0125, GPT-4-0612, GPT-4-0125-preview)。
- 方法: 通过比较人类样本和LLMs样本的潜在结构来进行验证性因子分析(CFA)和探索性因子分析(EFA)。
实验效果
- 数据: 人类样本n=365,GPT-3.5-T样本n=399,GPT-4样本n=387。
- 结论: LLMs的问卷响应显示出随意性,与人类样本的潜在结构大不相同。这表明我们不能有效地使用现有的问卷测量LLMs中的人格特质,或者这些特质根本不存在于LLMs中。
推荐阅读指数:
★★★☆☆
- 推荐理由: 这篇文章为理解LLMs的行为提供了新的视角,并对现有的心理测量方法在LLMs中的应用提出了质疑。
2. Steward: Natural Language Web Automation
Authors: Brian Tang, Kang G. Shin
https://arxiv.org/abs/2409.15441
Steward: 自然语言网页自动化
摘要
本文介绍了Steward,这是一款新型的大型语言模型(LLM)驱动的网络自动化工具,旨在为网站交互提供一种经济、可扩展的端到端解决方案。Steward通过接收自然语言指令,反应性地规划和执行一系列网站操作,直到任务完成,使其成为开发人员和研究人员实用的工具。Steward在执行动作时表现出高效率,并且通过缓存机制进一步提高了性能。
研究背景
大型语言模型(LLMs)在AI助手领域展现出了卓越的能力,但它们在不同网站和网页环境中的交互能力尚未充分探索。现有的浏览器自动化框架如Selenium、Puppeteer和Playwright在执行大规模或动态网站交互任务时存在局限性。
问题与挑战
- 问题: 如何让LLMs有效地与各种网站和网页元素进行交互?
- 挑战: 如何设计一个能够理解自然语言指令并自动执行网页任务的系统。
创新点
- 提出了一种结合LLMs和浏览器自动化的工具,允许自然语言驱动的网站交互。
- 设计了一种高效的缓存机制,显著提高了任务执行的速度和成本效率。
- 实现了一个端到端的系统,可以自动检测任务完成状态并终止操作。
算法模型
- 模型: 使用了OpenAI的GPT-3.5 Turbo、GPT-4 Turbo和GPT-4 Vision模型。
- 方法: Steward通过接收自然语言指令,利用LLMs生成网页的高级描述,然后通过筛选和清理HTML元素,选择与用户指令最匹配的UI元素进行交互。
实验效果
- 数据: 使用Mind2Web数据集进行评估,包含2,350个自然语言任务和超过10,000个记录的动作。
- 结论: Steward在执行任务时表现出了40%的成功率,平均完成56%的步骤,在检测到任务完成状态时正确终止的比率为71%。在成本方面,Steward平均每次任务的成本为0.18美元,中位数为8.52秒/动作。
推荐阅读指数:
★★★★☆
- 推荐理由: Steward的研究为LLMs在网页自动化领域的应用提供了新的思路和方法。它不仅展示了LLMs在理解自然语言指令和执行网页任务方面的潜力,还通过缓存机制提高了性能。
3. RAM2C: A Liberal Arts Educational Chatbot based on Retrieval-augmented Multi-role Multi-expert Collaboration
Authors: Haoyu Huang, Tong Niu, Rui Yang, Luping Shi
https://arxiv.org/abs/2409.15461
RAM2C:一种基于检索增强的多角色多专家协作的文科教育聊天机器人
摘要
本研究聚焦于如何利用大型语言模型(LLMs)改进文科教育对话,尤其是在中文阅读教学中。研究者们提出了一个名为RAM2C(Retrieval-augmented Multi-role Multi-expert Collaboration)的框架,以自动生成符合人文教育要求(Humanized communication, Teaching expertise, Safety-ethics,简称HTS)的对话数据集。该框架通过多角色多专家协作,使用改进的检索增强生成技术,显著提升了LLMs在教育对话中的表现。
研究背景
在文科教育对话中,除了专业知识,人性化沟通、教学技巧和安全伦理同样重要。然而,收集符合HTS标准的教学对话数据成本高昂,现有的LLMs在教学对话中的表现还未达到人类标准。
问题与挑战
- 如何生成符合HTS要求的高质量教育对话数据。
- 如何提升LLMs在文科教育对话中的个性化、教学专长和伦理安全表现。
创新点
- 提出RAM2C框架,通过多角色多专家协作自动生成高质量教育对话数据。
- 设计了基于多源知识库的检索增强专家系统,通过群体反思实现多维度参考价值检索增强。
- 在文科教育对话中,通过人偏好对齐实现LLMs的HTS偏好对齐。
算法模型
- 模型: RAM2C框架整合了多个LLMs,包括教师、教育心理学家和伦理安全专家。
- 方法: 使用检索增强技术,通过不同知识库增强LLMs,形成多专家组,生成符合HTS标准的教育对话数据集,并对LLMs进行微调。
实验效果
- 数据: 使用RAM2C生成的3,500个对话样本进行微调。
- 结论: 微调后的模型在HTS三个维度上的表现均优于原始模型,尤其是在人性化沟通和教学专长方面。与主流中文商业模型GLM-4相比,RAM2C赋能的GLM-4展现了最高水平的表现。
推荐阅读指数:
★★★★☆
- 推荐理由: 通过创新的多角色多专家协作和检索增强技术,显著提升了LLMs在教育对话中的个性化和教学质量,对于教育领域的研究者和实践者来说,这篇文章值得一读。
4. SEAL: Suite for Evaluating API-use of LLMs
Authors: Woojeong Kim, Ashish Jagmohan, Aditya Vempaty
https://arxiv.org/abs/2409.15523
SEAL:用于评估大型语言模型API使用的工具套件
摘要
大型语言模型(LLMs)在处理需要实时访问外部APIs的任务时存在局限性。虽然已有一些基准测试(如ToolBench和APIGen)用于评估LLMs的API使用能力,但它们通常存在缺乏泛化能力、有限的多步推理覆盖以及由于实时API波动导致的不稳定等问题。本文介绍了SEAL,这是一个端到端的测试平台,用于评估LLMs在现实世界API使用中的表现。SEAL标准化现有基准,集成了用于测试API检索和规划的代理系统,并通过引入GPT-4驱动的API模拟器和缓存来解决实时API的不稳定性问题。
研究背景
LLMs在许多语言任务中表现出色,但在需要实时访问特定信息(如当前事件、计算或网络搜索)的任务中面临限制。工具如计算器、代码执行和浏览扩展了LLMs的能力,使它们能够执行专业任务并获取最新知识,动态适应用户需求。
问题与挑战
现有的API使用基准测试存在一些关键问题,包括泛化能力不足、多步推理查询覆盖不足以及由于实时API服务的变动性导致的基准质量不稳定。
创新点
- 提出了SEAL,一个全面的测试平台,用于评估LLMs在工具使用,特别是多样化的现实世界APIs中的表现。
- SEAL通过标准化现有基准并整合基于AutoGen框架的代理系统,提供了一个健壮的评估流程。
- 为了解决实时API的不稳定性,开发了一个由GPT-4驱动的API模拟器,并引入了缓存机制来实现更确定性的评价。
算法模型
SEAL基于AutoGen框架构建了一个灵活的代理系统,允许用户根据需求轻松集成和测试不同的代理。SEAL的架构包括API检索器、API执行器、API执行管理器和API模拟器。
实验效果
- 数据: 使用ToolBench和APIGen基准进行评估。
- 结论: 随着API池的扩大,API检索和调用的准确性有所下降,但最终响应的通过率变化不大。这表明随着API数量的增加,任务变得更加具有挑战性。
推荐阅读指数:
★★★★☆
- 推荐理由: SEAL为评估LLMs在现实世界API交互中的性能提供了一个全面和标准化的框架。
5. Qualitative Insights Tool (QualIT): LLM Enhanced Topic Modeling
Authors: Satya Kapoor, Alex Gil, Sreyoshi Bhaduri, Anshul Mittal, Rutu Mulkar
https://arxiv.org/abs/2409.15626
定性洞察工具(QualIT):大型语言模型增强的主题建模
摘要
主题建模是一种广泛用于从大型文本语料库中挖掘主题结构的技术。然而,大多数主题建模方法(例如潜在狄利克雷分配(LDA))难以捕捉到准确建模复杂叙述所需的细微语义和上下文理解。最近的进步包括像BERTopic这样的方法,它显著提高了主题一致性,从而为基准测试建立了新的标准。在本文中,我们提出了一种新的方法,Qualitative Insights Tool (QualIT),它将大型语言模型(LLMs)与现有的基于聚类的主题建模方法整合。我们的方法利用LLMs的深度上下文理解和强大的语言生成能力,通过聚类丰富了主题建模过程。我们在大量新闻文章的语料库上评估了我们的方法,并展示了与基线主题建模技术相比,在主题一致性和主题多样性方面的显著改进。
研究背景
主题建模是自然语言处理(NLP)中用于从非结构化文本数据(如社交媒体帖子、新闻文章或客户反馈)中提取潜在主题结构的技术。传统的主题建模技术(例如LDA)存在一些局限性,例如单词袋模型的局限性和必须指定聚类数量,它们还依赖于预定义的规则和模式,难以捕捉自然语言中固有的上下文细微差别和歧义。
问题与挑战
现有的基于聚类的主题建模方法(如BERTopic)存在局限性,例如单词表示过载或每篇文本只能生成一个主题。此外,这些方法可能需要领域特定的知识或微调才能达到可接受的性能。
创新点
- 提出了QualIT,一种将预训练的LLMs与聚类技术整合的新方法,以系统地解决两种方法的局限性,并从自由文本数据中生成更细致和可解释的主题表示。
- 结合了LLMs的自然语言理解和聚类方法的组织和总结数据的能力,可以革新主题建模,提供强大而富有洞察力的方法来分析大规模文本响应。
算法模型
QualIT包括多个步骤来生成主题,然后用于确定文档的子主题。三个关键步骤是:
- 关键短语提取:使用LLM提取代表各个文档的关键短语。
- 幻觉检查:计算每个短语的一致性得分,以确保提取的关键短语的可靠性。
- 聚类:使用K-Means聚类算法对关键短语进行分组,每组代表具有相似语义内容的文档集合。
实验效果
- 数据: 使用了包含20,000篇新闻文章的20 NewsGroups数据集。
- 结论: QualIT在主题一致性和主题多样性方面均优于LDA和BERTopic。在20个ground-truth主题上,QualIT达到了70%的主题一致性(基准模型分别为65%和57%)和95.5%的主题多样性(基准模型分别为85%和72%)。
推荐阅读指数:
★★★★☆
- 推荐理由: QualIT通过结合LLMs和聚类技术,提供了一种强大的新方法来分析和理解大规模文本数据中的主题。这项工作为文本分析、主题建模和定性研究领域带来了新的视角和工具,对于希望利用LLMs进行深入文本分析的研究者和实践者来说,这篇文章提供了有价值的见解和方法。
6. M^2PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning
Authors: Taowen Wang, Yiyang Liu, James Chenhao Liang, junhan zhao, Yiming Cui,
Yuning Mao, Shaoliang Nie, Jiahao Liu, Fuli Feng, Zenglin Xu, Cheng Han, Lifu
Huang, Qifan Wang, Dongfang Liu
https://arxiv.org/abs/2409.15657
M2PT:用于零样本指令学习的多模态提示调整
摘要
本文介绍了一种新的多模态提示调整方法(M2PT),用于对多模态大型语言模型(MLLMs)进行高效的指令调整。M2PT通过在微调过程中将视觉和文本提示分别集成到视觉编码器和语言处理器中,促进了跨模态特征的提取和对齐。在多种多模态评估数据集上的实验结果表明,M2PT与几种最新技术基线相比具有更优越的性能。一系列详尽的消融研究验证了我们的提示设计和方法的有效性。
创新点
- 多模态提示调整:首次提出将视觉和文本提示结合用于微调,以提高模型对多模态任务的适应能力。
- 跨模态交互:通过在不同模态的提示之间设计交互,增强了模型对多模态信息的理解和处理能力。
- 参数高效:M2PT仅调整模型的极小部分参数,大幅减少了训练成本,同时保持了优越的性能。
算法模型
M2PT模型的核心在于三个方面的创新设计:
- 视觉提示(Visual Prompt):在视觉编码器的每一层中嵌入可学习的参数(软提示),以更好地捕捉视觉输入的语义内容。
- 文本提示(Textual Prompt):在语言模型(LLM)中引入文本提示,以捕捉文本模式并影响LLM内部的表示。
- 跨模态交互层:引入一个可调的交互层,以增强视觉编码器提取的特征与文本表示之间的对齐。
实验效果
- 准确率:在多个数据集上,M2PT在少样本学习任务中的表现超越了包括LoRA、PTUM和VPT在内的多个参数高效微调方法。
- 结论:M2PT在零样本指令学习任务中展现了强大的性能,同时大幅度减少了参数调整的数量,实现了计算效率和整体效果的平衡。
推荐阅读指数:★★★★☆
推荐理由:M2PT通过创新的多模态提示调整策略,在保持性能的同时显著减少了参数数量,对于资源受限的应用场景具有重要意义。
7. CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation
Authors: Fuxian Huang, Qi Zhang, Shaopeng Zhai, Jie Wang, Tianyi Zhang, Haoran
Zhang, Ming Zhou, Yu Liu, Yu Qiao
https://arxiv.org/abs/2409.15806
CLSP: 用于代理状态表示的高保真对比语言状态预训练
摘要
随着人工智能的快速发展,多模态学习已成为一个重要的研究领域。对于智能代理来说,状态是传递精确信息的关键方式,与图像、视频和语言等常见模态一样重要。这在强化学习和多模态大型语言模型的广泛应用中变得尤为明显。尽管如此,状态模态的表示仍然发展不足。为此,我们提出了一种高保真对比语言状态预训练(CLSP)方法,它可以准确地将状态信息编码成强化学习和多模态大型语言模型的通用表示。具体来说,我们首先设计了一个基于分类的预训练任务,以训练具有粗粒度信息的编码器。接下来,我们构建了状态和语言描述的数据对,利用预训练的编码器初始化CLSP编码器。然后,我们部署对比学习来训练CLSP编码器,以有效地表示精确的状态信息。此外,我们使用随机傅里叶特征(RFF)方法增强数值信息的表示,以实现高保真映射。广泛的实验表明,我们的表示在文本状态检索、强化学习导航任务和多模态大型语言模型理解方面具有优越的精度和泛化能力。
研究背景
在构建人工智能泛在智能和具身智能的关键技术中,多模态数据理解受到了越来越多的关注。作为理解多模态数据的关键技术,模态表示将数据编码到潜在的向量空间中以表达信息。当前对多模态数据的研究主要集中在语言、图像、视频和音频数据上,但在复杂的具身AI环境中,代理的状态通常包含对决策至关重要的丰富信息,因此准确表示和理解状态是至关重要的。
问题与挑战
- 如何从复杂的标量值中提取有用的表示是一个挑战。
- 学习到的表示与原始标量对应的精度往往较低,这限制了在后续任务中的可用性。
创新点
- 高保真对比学习:提出一种新颖的框架,通过对比学习进一步改善状态编码器的表示能力。
- 随机傅里叶特征:使用RFF方法来提高标量值的表示精度。
- 多模态语言模型:设计了一个大型多模态模型,基于学习到的状态编码器和预训练的语言模型来理解状态信息。
算法模型
CLSP模型有三个步骤:
- 基于分类的预训练:通过分类任务预训练编码器,获得粗粒度的信息。
- 基于对比的表示学习:使用对比学习进一步训练编码器,以更好地对齐状态和文本描述。
- 在多模态LLM和RL任务中的应用:将学习到的CLSP编码器应用于多模态LLM任务和RL导航任务。
实验效果
- 文本状态检索:在不同的数据集上,CLSP在少样本学习任务中的表现超越了包括LoRA、PTUM和VPT在内的多个参数高效微调方法。
- 强化学习导航任务:在RL导航任务中,使用CLSP编码的目标状态嵌入与基线相比,学习速度更快,最终收敛值更高。
- 多模态大型语言模型理解:在多模态LLM任务中,通过生成的语言输出,模型能够将输入状态转换为语言表达。
推荐阅读指数:★★★★☆
推荐理由:这篇文章在多模态学习领域提出了一种新颖的状态表示方法,通过对比学习和随机傅里叶特征提高了状态信息的表示精度,对于资源受限的应用场景具有重要意义。此外,文章通过详尽的实验和消融研究验证了方法的有效性,对相关领域的研究者来说,这是一篇值得一读的论文。
8. A Comprehensive Evaluation of Large Language Models on Mental Illnesses
Authors: Abdelrahman Hanafi, Mohammed Saad, Noureldin Zahran, Radwa J. Hanafy
and Mohammed E. Fouda
https://arxiv.org/abs/2409.15687
文章分析总结
文章标题翻译
原文标题: A COMPREHENSIVE EVALUATION OF LARGE LANGUAGE MODELS ON MENTAL ILLNESSES
翻译: 大型语言模型在精神疾病评估中的全面评估
摘要
本研究对大型语言模型(LLMs)在精神健康任务中的应用进行了全面评估,特别是在社交媒体数据的背景下。研究探讨了各种LLMs(包括GPT-4、Llama 3、Claude、Gemma、Gemini、Phi-3等)在二元障碍检测、障碍严重程度评估和精神医学知识评估等任务上的零样本(ZS)和少样本(FS)能力。评估涵盖了从20亿到4000多亿参数的33个模型,并使用了9种主要的提示模板。关键发现表明,像GPT-4和Llama 3这样的模型在二元障碍检测中表现出色,某些数据集上的准确率达到85%。此外,提示工程在提高模型性能方面发挥了关键作用。例如,当从我们的第一种二元提示过渡到更结构化的提示时,某些模型的准确性显著提高。值得注意的是,Mixtral 8x22b模型的准确性提高了20%以上,而Gemma 7b的性能也有了类似的提升。在障碍严重程度评估任务中,FS学习显著提高了模型的准确性,突出了复杂评估中上下文示例的重要性。特别是,Phi-3-mini模型的性能有了显著提升,平衡准确率(BA)提高了6.80%以上,平均绝对误差(MAE)从ZS学习到FS学习时降低了近1.3。此外,在精神医学知识评估任务中,较新的模型通常优于旧的、较大的模型,Llama 3.1 405b的准确率达到了91.2%。尽管结果充满希望,但分析也发现了一些挑战,包括跨数据集的性能变化以及需要谨慎的提示工程。此外,使用大型模型的高成本和社交媒体数据质量的限制也带来了挑战。此外,许多LLM提供商实施的伦理保护阻碍了准确评估它们的性能,因为它们倾向于不回应可能敏感的查询。
研究背景
随着人工智能(AI)在精神卫生领域的迅速发展,提出了创新的解决方案来应对全球精神疾病负担的增长。精神疾病在全球疾病负担中占比5.1%,影响着全球2.8亿人,并导致约70.3万人死于自杀。在美国,预计到2040年,精神卫生不平等的累积成本将达到14万亿美元。
问题与挑战
- 如何准确地从社交媒体帖子中检测和评估精神健康障碍。
- 需要谨慎的提示工程来提高模型性能。
- 使用大型模型的高成本。
- 社交媒体数据的质量限制。
创新点
- 对多种LLMs在精神健康任务上进行了全面评估。
- 探索了零样本和少样本学习能力。
- 强调了提示工程在提高模型性能中的关键作用。
- 在障碍严重程度评估中,展示了FS学习的重要性。
算法模型
- 二元障碍检测:使用零样本学习方法检测社交媒体用户是否表现出特定的精神障碍。
- 障碍严重程度评估:使用零样本和少样本学习方法评估用户的精神障碍严重程度。
- 精神医学知识评估:测试LLMs对基本精神医学概念的知识,通过多项选择问题进行评估。
实验效果
- 二元障碍检测:GPT-4和Llama 3等模型在某些数据集上的准确率达到85%。
- 障碍严重程度评估:FS学习显著提高了模型的准确性,Phi-3-mini模型的平衡准确率提高了6.80%以上,平均绝对误差降低了近1.3。
- 精神医学知识评估:Llama 3.1 405b的准确率达到了91.2%。
推荐阅读指数:
★★★★☆
推荐理由:这篇文章对大型语言模型在精神健康领域的应用进行了全面的评估,提供了宝贵的见解和数据。 跨学科研究应用。
9. AsthmaBot: Multi-modal, Multi-Lingual Retrieval Augmented Generation For Asthma Patient Support
Authors: Adil Bahaj and Mounir Ghogho
https://arxiv.org/abs/2409.15815
AsthmaBot:用于哮喘患者支持的多模态、多语言检索增强生成系统
摘要
全球哮喘患病率由于环境和生活方式因素而上升。在发展中国家,获得即时医疗护理的机会尤其有限,这就需要自动化的支持系统。大型语言模型(LLMs)在通用自然语言处理和问答方面取得了进步,但它们可能会产生事实上不正确的回答(即幻觉)。通过整合策划的文档,检索增强生成系统可以提高大型语言模型的性能,并减少幻觉的发生。我们介绍了AsthmaBot,一个用于哮喘支持的多语言、多模态检索增强生成系统。对哮喘相关问题的评估显示了AsthmaBot的有效性。AsthmaBot具有交互式和直观的界面,整合了不同的数据模态(文本、图像、视频),使其能够为更广泛的公众提供服务。
研究背景
过去几十年中,全球哮喘患病率上升,这不仅仅是由于遗传因素,主要是由于环境和生活方式风险因素的影响。哮喘每年导致数千人死亡,主要是由于缺乏即时和适当的医疗护理。然而,许多哮喘相关死亡是可以通过家庭疗法、锻炼、治疗和行动计划来预防的,这些方法可以通过避免触发因素或采用缓解疗法来帮助减轻哮喘患者的症状。
问题与挑战
- 哮喘患者在获取及时医疗信息方面的挑战。
- 大型语言模型(LLMs)在提供医疗信息时可能会产生幻觉(即生成听起来合理但事实上不正确的回答)。
- 现有系统大多只提供文本信息,缺乏多模态能力。
- LLMs存在语言偏见,限制了它们在非英语语言中生成信息的质量。
创新点
- 开发了AsthmaBot,一个多语言、多模态的检索增强生成系统,用于提供哮喘患者支持。
- 通过整合策划的文档、视频和图像,为哮喘相关问题提供基于最新和策划的列表的答案。
- AsthmaBot的界面整合了不同的数据模态,包括文本、图像和视频,以更直观和互动的方式提供信息。
算法模型
AsthmaBot后端是一个多模态、多语言检索增强生成的大型语言模型(LLM),前端是一个聊天机器人形式的界面。AsthmaBot使用检索增强生成(RAG)技术,结合文档集合、检索算法和骨干LLMs。
实验效果
- 在多语言(英语、阿拉伯语、法语)和多模态(文本、图像、视频)的环境下,与没有使用RAG的基线相比,AsthmaBot在回答问题方面表现更好。
- 实验结果表明,将查询翻译成英语,然后使用英语提示模型,比使用查询的本地语言获得的结果更丰富。
推荐阅读指数:★★★★☆
推荐理由:这篇文章介绍了一个创新的多模态、多语言系统AsthmaBot,用于支持哮喘患者。该系统通过整合策划的文档、视频和图像,提高了提供医疗信息的准确性和可靠性。AsthmaBot的设计和实现为解决LLMs在医疗领域应用中的挑战提供了有价值的见解,对于自然语言处理和医疗信息检索领域的研究者和从业者来说,这是一篇值得一读的论文。
10. In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations
Authors: Moucheng Xu and Evangelos Chatzaroulas and Luc McCutcheon and Abdul
Ahad and Hamzah Azeem and Janusz Marecki and Ammar Anwar
https://arxiv.org/abs/2409.15867
通过上下文集成提高视频-语言模型对人类示范的低层次工作流理解
摘要
标准操作程序(SOP)是基于视频演示的商业软件工作流的逐步书面指南。SOP是实现端到端软件工作流自动化的关键一步。手动创建SOP可能非常耗时。最近在大型视频-语言模型方面的进展为通过分析人类示范的记录来自动化SOP生成提供了可能性。然而,当前的大型视频-语言模型在零样本SOP生成方面面临挑战。我们探索了使用视频-语言模型进行SOP生成的上下文学习。我们报告说,上下文学习有时可以帮助视频-语言模型进行SOP生成。然后我们提出了一种上下文集成学习方法,以进一步提高模型在SOP生成方面的能力。
研究背景
视频-语言模型是一类新兴的大型基础模型,吸引了越来越多的研究兴趣。这些模型通常预训练一个视觉编码器将视觉输入投影成标记,然后由大型语言模型使用这些标记来解释视觉信号以及文本指令。尽管在视频理解的高级任务(如视频摘要)上取得了显著成功,但当前的视频-语言模型在处理更复杂的任务时仍面临挑战。例如,大多数现有模型无法处理长视频或多个短视频。另一个挑战是它们在复杂的低层次视频理解方面的不足。
问题与挑战
- 如何从视觉输入中自动化地生成准确的SOP。
- 如何提高视频-语言模型在低层次工作流理解方面的能力。
创新点
- 提出了一种新的上下文集成学习方法(ICE),通过使用伪标签来增强视频-语言模型在SOP生成方面的表现。
- 通过多模态上下文集成学习,使模型能够从超出其上下文窗口限制的更多示例中学习,同时具有正则化效果。
算法模型
ICE学习流程首先将多个视频-语言模型应用于不同批次的训练视频及其标准操作程序(SOP)文本标签。然后,同样的微调视频-语言模型为测试视频的SOP创建伪标签。最后,另一个视频-语言模型处理测试视频以及伪标签作为先验,以生成SOP的最终预测。
实验效果
- 在WONDERBREAD基准测试的"Gold Demo"子集中,使用ICE方法的GPT-4o-mini模型在召回率方面达到了84.79%,而基线模型的召回率为78.13%。
- Gemini-1.5-flash模型在应用ICE后,在召回率方面实现了9.22%的提升。
- ICE方法显著优于多数投票"Ensemble"方法,突出了在SOP生成中使用多模态训练样本的必要性。
代码链接: https://github.com/moucheng2017/SOP-LVM-ICL-Ensemble
推荐阅读指数:★★★★☆
推荐理由:这篇文章探讨了如何利用上下文集成学习来提高视频-语言模型在SOP生成任务中的表现,这对于自动化业务流程和提高工作效率具有重要意义。文章的实验结果表明,所提出的ICE方法能够有效提升模型的预测性能,对于自然语言处理和计算机视觉领域的研究人员来说,这是一篇值得关注的论文。
后记
如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术。
相关文章:
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28目录前言1. Cognitive phantoms in LLMs through the lens of latent variables摘要研究背景问题与挑战创新点算法模型实验效果…...
【tower-boot 系列】开源RocketMQ和阿里云rockerMq 4.x和5.x集成 (一)
RocketMQ 简单介绍 阿里云rockerMq 4.x和5.x集成 一、云平台创建实例 参考文档: 阿里云api 阿里云 创建实例 二、skd集成思路 公司用的RocketMQ一般是自建开源apache的RocketMQ和上阿里云的RocketMQ,目前阿里云支持4.x和5.x版本 项目集成思路&…...
Pikachu-Cross-Site Scripting-反射型xss(post)
查看源代码 ,这是需要先登录,然后再去做xss攻击 使用admin ,123456 登陆; 登陆后,输入的message 内容直接返回 输入 <script>alert(1)</script> 得到xss攻击结果...
Vue3 工具函数(总结)
目录 前言 1.isRef 2.isReactive 3.isReadonly 4.isProxy 5.toRef 6.toRefs 7.unref 8.shallowRef 9.shallowReactive 10.triggerRef 11.customRef 12.markRaw 13.toRaw 14.readonly 15.watchEffect 前言 在 Vue 3 中,除了核心的响应式 API&#x…...
(undone) MIT6.824 Lab1
参考:http://nil.csail.mit.edu/6.824/2021/labs/lab-mr.html task1: 熟悉讲义,尤其是搞明白如何运行测试程序(完成) ------------------------------------------------ start 先看 Introduction 我们的目标:构建一个MapReduce系统。 细节&…...
SpringMVC——REST
路径请求方式请求行为 查询:GET 新增:POST 修改:PUT 删除:DELETE 有重复的东西怎么办...
【牛客网刷题记录】【java】二叉树
(1)二叉树的前中后遍历 最基本的树的遍历,不会可以重开了 public class Solution {/*** 代码中的类名、方法名、参数名已经指定,请勿修改,直接返回方法规定的值即可** * param root TreeNode类 * return int整型一维…...
一文讲透大语言模型构建流程
最近已有不少大厂都在秋招宣讲了,也有一些在 Offer 发放阶段。 节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。 针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了…...
VR视频怎样进行加密和一机一码的使用?--加密(一)
在视频加密领域,我们常见接触的就是在普通设备上使用的加密视频,如电脑、手机、平板等。Vr的发展和兴起给人们带来最真实的体验感受,不仅在游戏行业应用较广,在一些影院或者元宇宙文旅、展厅等视频场景也备受青睐。 随着VR视频场景…...
Ubuntu启动后第一次需要很久才能启动GTK应用问题
Ubuntu启动后第一次需要很久才能启动GTK应用问题 自从升级了 Ubuntu 之后,设备重启,发现打开 Terminal 、Nautilus 以及其他的GTK 应用都很慢,需要至少一分钟的时间启动。 刚开始也是拿着 journalctl 的异常日志去寻找答案,但是没…...
栏目二:Echart绘制动态折线图+柱状图
栏目二:Echart绘制动态折线图柱状图 配置了一个ECharts图表,该图表集成了数据区域缩放、双Y轴显示及多种图表类型(折线图、柱状图、象形柱图)。图表通过X轴数据展示,支持平滑折线展示比率数据并自动添加百分比标识&…...
Gromacs——使用过程中暴露问题分析及学习
gromacs——突变残基蛋白电场MD和基本分析从入门到发SCIENCE:基于Gromacs的蛋白小分子动态模拟全过程解析水溶性蛋白模拟全过程:从准备蛋白结构文件(top、itp、gro文件生成)到模拟数据分析GromacsGROMACS 教程:蛋白配体…...
Webpack模式-Resolve-本地服务器
目录 ResolveMode配置搭本地服务器区分环境配置 Resolve 前面学习时使用了各种各样的模块依赖,这些模块可能来自于自己编写的代码,也可能来自第三方库,在 Webpack 中,resolve 是用于解析模块依赖的配置项,它决定了 We…...
【LLM论文日更】| 通过指令调整进行零样本稠密检索的无监督文本表示学习
论文:https://arxiv.org/pdf/2409.16497代码:暂未开源机构:Amazon AGI、宾夕法尼亚州立大学领域:Dense Retrieval发表:Accepted at DCAI24 workshopCIKM2024 研究背景 研究问题:这篇文章要解决的问题是如…...
02.01、移除重复节点
02.01、[简单] 移除重复节点 1、题目描述 编写代码,移除未排序链表中的重复节点。保留最开始出现的节点。 2、解题思路 为了实现这一目标,我们可以使用一个哈希表(或集合)来记录已经遇到的节点值,逐步遍历链表并删…...
旅游推荐|旅游推荐系统|基于Springboot+VUE的旅游推荐系统设计与实现(源码+数据库+文档)
旅游推荐系统 目录 基于java的旅游推荐系统设计与实现 一、前言 二、系统功能设计 三、系统实现 四、数据库设计 1、实体ER图 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍:✌️大厂码农|毕设布道师…...
github项目--crawl4ai
github项目--crawl4ai 输出html输出markdown格式输出结构化数据与BeautifulSoup的对比 crawl4ai github上这个项目,没记错的话,昨天涨了3000多的star,今天又新增2000star。一款抓取和解析工具,简单写个demo感受下 这里我们使用cra…...
仅有N卡独显的情况下安装ubuntu是遇到的黑屏,加载卡顿等问题
Ubuntu安装的两个阶段都要进行一定的设置来临时禁用掉独显或者ubuntu的通用显卡驱动。 U盘启动阶段 U盘启动阶段要对U盘启动项进行设置,通过BIOS设置第一boot为USB hard disk后可以进到U盘引导项,第一项为 “try or install ubuntu”,倒计时10s后自动进入。 这个时候不要…...
Vite:为什么选 Vite
一、现实问题 在浏览器支持 ES 模块之前,JavaScript 并没有提供原生机制让开发者以模块化的方式进行开发。这也正是我们对 “打包” 这个概念熟悉的原因:使用工具抓取、处理并将我们的源码模块串联成可以在浏览器中运行的文件。 时过境迁,我…...
个人项目简单https服务配置
1.SSL简介 SSL证书是一种数字证书,由受信任的证书颁发机构(CA)颁发,用于在互联网通信中建立加密链接。SSL代表“安全套接层”,是用于在互联网上创建加密链接的协议。SSL证书的主要目的是确保数据传输的安全性和隐私性…...
Rust 函数
Rust 函数 Rust 是一种系统编程语言,以其安全性、并发性和性能而闻名。函数是 Rust 编程语言中的基本构建块,用于封装可重用的代码块。本文将深入探讨 Rust 中的函数,包括其定义、特性、参数、返回值以及高级概念。 函数定义 在 Rust 中&a…...
微信小程序中的 `<block>` 元素:高效渲染与结构清晰的利器
微信小程序中的 <block> 元素:高效渲染与结构清晰的利器 在微信小程序的开发中,<block> 元素扮演着举足轻重的角色。尽管它不会在页面中渲染任何可见的节点,但作为一个逻辑上的容器,<block> 在条件渲染和循环渲…...
选读算法导论5.2 指示器随机变量
为了分析包括包括雇佣分析在内的许多算法,我们将使用指示器随机变量,它为概率和期望之间的转换提供了一个便利的方法,给定一个样本空间S和事件A,那么事件A对应的指示器随机变量: Xa 1 如果A发生 0 如果…...
大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进
点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…...
centos9 nginx 版本
centos9 安装 ssh -V OpenSSH_8.7p1, OpenSSL 3.2.2 4 Jun 2024 openssl version OpenSSL 3.2.2 4 Jun 2024 (Library: OpenSSL 3.2.2 4 Jun 2024) sudo yum install nginx Installing:nginx x86_64 2:1.20.1…...
https访问报错:net::ERR_CERT_DATE_INVALLD
目录 简介异常排查原因解决补充 简介 访问https资源出现报错 异常 排查 将地址拿到浏览器进行访问,可以很清晰的看到出现该问题的原因 原因 1、SSL证书已过期 2、服务器日期不准,不在证书有效期 解决 1、重新申请SSL证书,并配置 2、校正…...
cat用来查看文件内容、合并文件,或者将文件内容输出到终端
cat 是 Unix 和 Linux 系统中的一个命令,它的名称来源于 “concatenate”(连接),主要用来查看文件内容、合并文件,或者将文件内容输出到终端。 常用用法 查看文件内容 cat filename输出 filename 的内容到终端中。 例…...
基于ssm大学生自主学习网站的设计与实现
文未可获取一份本项目的java源码和数据库参考。 1、毕业论文(设计)的背景及意义: (1)研究背景 目前,因特网是世界上最大的计算机互联网络,它通过网络设备将世界各地互相独立的不同规模的局域…...
C++基础补充(01)C++11基于范围的for循环
文章目录 1. 基本语法1.1 decalaration默认获取值引用&自动类型推导(auto) 1.2 container数组STL容器初始化列表自定义类型返回容器的函数 2. 其他示例2.1 遍历数组2.2 遍历vector,并修改元素2.3 使用常量引用遍历,防止容器中…...
qt6 使用QPSQL
检查可用的数据库驱动: // iteator all database driverQStringList drivers QSqlDatabase::drivers();QStringList::iterator it;for (it drivers.begin(); it ! drivers.end(); it){qDebug() << *it;} qt6 自带pg数据库驱动: pro文件加个说明&…...
网站后台做完文章不显示/四种营销策略
有scp命令,传输文件却显示报错无此命令今天下午在一台服务器上使用scp命令向另外一台服务器传文件的时候,报此错误 bash: scp: command not found ,lost connection,以为是该服务器没有安装此命令,w ...学习mongo系列(五) AND,$or,&…...
做机械出口用哪个网站好/新疆今日头条新闻
https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000我把git命令都按顺序记录...(sudo可以用sudo su去掉..)安装git:apt-get install git创建目录:mkdir learngit用cd命令进入..创建git仓库&am…...
网站优化公司哪家便宜/个人博客网站设计毕业论文
转自:http://blog.csdn.net/luo3532869/article/details/7605414 printk的日志级别有八个分别为KERN_EMERG、 KERN_ALERT、 KERN_CRIT、 KERN_ERR 、 KERN_WARNNING、 KERN_NOTICE、 KERN_INFO 、KERN_DEBUG printk默认的级别是DEFAULT_MESSAGE_LOGLEVEL,…...
云南做网站哪家好/南宁seo费用服务
思路: (1)先写一个点击显示对应内容的选项卡 (2)增加一个定时器,定时器里继续放一个选项卡 注:两个通过让对应的下标来联系起来 <!doctype html> <html lang"en"> <he…...
17网站一起做网店/win10一键优化工具
怎样用Java 8优雅的开发业务函数式编程流式编程基本原理在Java中流式编程的基本原理有两点。构建流数据流转(流水线)规约IntStream.rangeClosed(1, 100) // 1. 构建流.mapToObj(String::valueOf)// 2. 数据流转(流水线).collect(joining()); // 3. 规约案例英雄的主位置一共有几…...
流媒体视频网站建设/福州百度推广优化排名
大家都知道Expression Web 4 是用来编写网页脚本的一款软件,包含的语言类型涉及:HTML、ASP、PHP、CSS,但它并不支持HTML5。如下图所示,在HTML5 中的<canvas> 标签并不能获得智能感应,这样在开发过程中会变得很麻…...