【RAG入门教程01】Langchian框架 v0.2介绍
LangChain 是一个开源框架,旨在简化使用大型语言模型 (LLM) 创建应用程序的过程。可以将其想象成一套使用高级语言工具进行搭建的乐高积木。
它对于想要构建复杂的基于语言的应用程序而又不必管理直接与语言模型交互的复杂性的开发人员特别有用。它简化了将这些模型集成到应用程序中的过程,使开发人员能够更加专注于应用程序逻辑和用户体验。
LLMs
“LLM” 代表“大型语言模型”,这是一种旨在大规模理解、生成和与人类语言交互的人工智能模型。这些模型在大量文本数据上进行训练,可以执行各种与语言相关的任务。
这些模型最初通过识别和解释单词与更广泛概念之间的关系来建立基础理解。这一初始阶段为进一步的微调奠定了基础。微调过程涉及监督学习,其中使用有针对性的数据和特定反馈对模型进行微调。此步骤可提高模型在各种情况下的准确性和相关性。
Transformer
训练数据通过一种称为 Transformer 的专门神经网络架构进行处理。这是大型语言模型 (LLM) 开发的关键阶段。
从非常高层次的概述来看,编码器处理输入数据(例如一种语言的句子)并将信息压缩为上下文向量。然后解码器获取此上下文向量并生成输出(例如将句子翻译成另一种语言)。
编码器和解码器具有“自注意力”机制,这使得模型可以对输入数据的不同部分的重要性赋予不同的权重。
自注意力机制让模型在处理特定单词或短语时能够关注输入文本的不同部分。对于每个单词,模型会评估句子中所有其他单词与其的相关性,并为这些关系分配权重。这些权重有助于模型更全面地理解句子结构和含义,从而生成更准确、更符合语境的回复或翻译。
大模型(LLM)
- 专有模型:这些是由公司开发和控制的 AI 模型。它们通常提供高性能,并得到大量资源和研究的支持。然而,它们的使用成本可能很高,可能具有限制性许可证,并且其内部工作原理通常不透明(闭源)。
- 开源模型:相比之下,开源 AI 模型可供任何人免费使用、修改和分发。它们促进社区内的协作和创新,并提供更大的灵活性。然而,它们的性能可能并不总是与专有模型相匹配,而且它们可能缺乏大公司提供的广泛支持和资源。
这些模型之间的选择涉及性能、成本、易用性和灵活性方面的权衡。开发人员必须决定是选择可能更强大但限制更多的专有模型,还是更灵活但可能不够完善的开源替代方案。这一选择反映了软件开发中早期的决策点,例如 Linux 所呈现的决策点,标志着 AI 技术及其可访问性发展的重要阶段。
Langchain
Langchain 有助于访问和合并来自各种来源(例如数据库、网站或其他外部存储库)的数据到使用 LLM 的应用程序中。
VectorStore向量存储
它将文档转换为向量存储。文档中的文本被转换为称为向量的数学表示,向量的表示称为嵌入。
当 Langchain 处理文档时,它会为文本内容生成嵌入。
从文档创建的嵌入填充了 Vector Store。文档中的每段文本都表示为该存储中的一个向量(嵌入)。因此,Vector Store 成为这些嵌入的存储库,以数学和语义丰富的格式表示原始文档的内容。
当您有“Transformer 是什么?”这样的问题时,大型语言模型 (LLM) 首先会将此问题转换为嵌入。这意味着 LLM 将问题转换为与存储在向量存储中的数据相同的向量格式。此转换可确保问题和存储的信息具有可比的格式。
现在问题已变成向量格式,LLM 可以有效地搜索向量存储。此查询过程的核心是相似性搜索。LLM 评估问题的向量与向量存储中的每个向量的相似程度。
进行相似性搜索后,LLM 会识别向量库中与问题向量最相似的向量。然后,这些向量会被重新翻译成文本形式,从而检索出与问题最相关、最相似的信息。
组件
Langchain 提供各种组件,使得在不同应用环境中集成和管理模型变得更加容易。
- 文档加载器是旨在简化从各种来源导入和处理文本数据的实用程序。
- 文档转换器对文本数据进行各种转换,使其格式更有利于大型语言模型 (LLM) 进行分析和处理。
- 文本嵌入模型专注于将文本数据转换为嵌入。
- 向量存储作为用于存储和管理嵌入的专用数据库。
- 检索器旨在根据给定的查询从向量存储中有效地检索相关信息。
- 工具执行特定任务和操作。例如,Bing 搜索工具是一个 API,用于将 Bing 搜索与 LLM 结合使用。
- 代理代表一种高级抽象,用于协调不同 Langchain 组件与最终用户之间的交互。它充当 LLM 和工具之间的中介,处理用户查询,使用 Langchain 中的适当模型和工具进行处理,然后将结果返回给用户。
- 记忆组件提供了一种记住和参考过去的交互或信息的机制。
- 链通过将 LLM 可以执行的各种任务链接在一起,有助于构建多步骤工作流或流程。此组件允许按顺序执行不同的语言任务,例如信息检索,然后是文本摘要或问答。通过创建这些任务链,Langchain 可以与 LLM 进行更复杂、更细致的交互和操作。
- Langchain 的LLM和聊天模型组件提供了一个框架,用于在应用程序内集成和管理各种大型语言模型(LLM),包括专门的聊天模型。
- 提示和解析器简化了模型的输入和输出。
LangChain 的核心组件
- 模型 I/O 封装
- LLMs:大语言模型
- Chat Models:一般基于 LLMs,但按对话结构重新封装
- PromptTemple:提示词模板
- OutputParser:解析输出
- 数据连接封装
- Document Loaders:各种格式文件的加载器
- Document Transformers:对文档的常用操作,如:split, filter, translate, extract metadata, etc
- Text Embedding Models:文本向量化表示,用于检索等操作
- Verctorstores: (面向检索的)向量的存储,保存了向量索引以及文档信息
- Retrievers: 向量的检索
- 记忆封装
- Memory:这里不是物理内存,从文本的角度,可以理解为“上文”、“历史记录”或者说“记忆力”的管理
- 架构封装
- Chain:实现一个功能或者一系列顺序功能组合
- Agent:根据用户输入,自动规划执行步骤,自动选择每步需要的工具,最终完成用户指定的功能
- Tools:调用外部功能的函数,例如:调 google 搜索、文件 I/O、Linux Shell 等等
- Toolkits:操作某软件的一组工具集,例如:操作 DB、操作 Gmail 等等
- Callbacks
- 功能模块:https://python.langchain.com/docs/get_started/introduction
- API 文档:https://api.python.langchain.com/en/latest/langchain_api_reference.html
- 三方组件集成:https://python.langchain.com/docs/integrations/platforms/
- 官方应用案例:https://python.langchain.com/docs/use_cases
- 调试部署等指导:https://python.langchain.com/docs/guides/debuggin
langchain v0.2升级
langchain v0.2导入方式发生了变化,具体模块可以参考以下API文档
https://api.python.langchain.com/en/latest/langchain_api_reference.html
使用前用下面命令进行安装:
pip install langchain
pip install langchain-core
pip install langchain-text-splitters
pip install langchain-huggingface
pip install langchain_openai==0.1.8
迁移文档:https://python.langchain.com/v0.2/docs/versions/v0_2/
参考资料
- LangChain框架介绍
- LangChain in Chains #1: A Closer Look
相关文章:
【RAG入门教程01】Langchian框架 v0.2介绍
LangChain 是一个开源框架,旨在简化使用大型语言模型 (LLM) 创建应用程序的过程。可以将其想象成一套使用高级语言工具进行搭建的乐高积木。 它对于想要构建复杂的基于语言的应用程序而又不必管理直接与语言模型交互的复杂性的开发人员特别有用。它简化了将这些模型…...
python 做成Excel并设置打印区域
记录首次用python处理Excel表格的过程。 参考文章:https://www.jianshu.com/p/5e00dc2c9f4c 程序要做的事情: 1. copy 模板文件到 output 文件夹并重命名为客户指定的文件名 2. 从 DB 查询数据并将数据写入 Excel 3. 写数据的同时, 设置每…...
SpringAI(二)
大模型:具有大规模参数和复杂计算结构的机器学习模型.通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数.其设计目的在于提高模型的表达能力和预测性能,应对复杂的任务和数据. SpringAI是一个AI工程领域的应用程序框架 大概推出时间是2023年7月份(不确定) 目的是将S…...
小白都可以通过U盘重装系统,再也不用花50块钱去安装系统啦
下载Ventoy 软件 1、今天带着大家通过Ventoy 安装Windows 11 系统。 2、首先我们通过官网如下地址:https://www.ventoy.net/cn/,找到我们对应系统的Ventoy 软件安装包。 3、通过官网可以找到软件包的地址地址,如下图所示。 4、如下就是我下…...
android 双屏异显-学习笔记
双屏异显 日常生活中,有时候会遇到 Android 设备连接两个屏幕进行显示的问题,比如酒店登记信息时,一个屏幕用于员工操作,一个屏幕显示相关信息供顾客查看。这里就涉及到 Android 的双屏异显的问题,实现Android 的双屏异显,Google 也提供了相应的 API方法 Presentation。…...
Android Lottie 体积优化实践:从 6.4 MB 降到 530 KB
一、说明 产品提出需求:用户有 8 个等级,每个等级对应一个奖牌动画。 按照常用的实现方式: 设计提供 8 个 lottie 动画(8 个 json 文件)。研发将 json 文件打包进入 APK 中。根据不同等级播放指定的动画。 每一个 …...
Django前端页面-模板继承
通过模板的继承,可以将所有共同的前端页面移到母版,那么其他页面就可以用到母版了。 这是母版 <!DOCTYPE html> <html><head>{% block css %}{% endblock %}</head><body><h1>母版</h1><div><!-- …...
使用HTML、CSS和JavaScript编写一个注册界面(一)
倘若文章或代码中有任何错误或疑惑,欢迎提出交流哦~ HTML和CSS 首先,我们需要编写一个简洁的注册界面。 简单编写下,如下: 呈现效果为: <!DOCTYPE html> <html lang"en"><head><me…...
什么是档案数字化管理
档案数字化管理指的是将传统的纸质档案转换为数字形式,并通过电子设备、软件和网络技术进行管理和存储的过程。 档案数字化管理包括以下几个步骤: 1. 扫描和数字化:将纸质档案通过扫描仪转换为数字图像或文档。可以使用OCR(光学字…...
vuInhub靶场实战系列--prime:1
免责声明 本文档仅供学习和研究使用,请勿使用文中的技术源码用于非法用途,任何人造成的任何负面影响,与本人无关。 目录 免责声明前言一、环境配置1.1 靶场信息1.2 靶场配置 二、信息收集2.1 主机发现2.1.1 netdiscover2.1.2 nmap主机扫描2.1.3 arp-scan主机扫描 2.2 端口扫描…...
L48---1637. 两点之间不包含任何点的最宽垂直区域(排序)---Java版
1.题目描述 2.思路 (1)返回两点之间内部不包含任何点的 最宽垂直区域 的宽度。 我的理解是相邻两个点,按照等差数列那样,后一个数减去相邻的前一个数,才能保证两数之间不含其他数字。 (2)所以&…...
在线渲染3d怎么用?3d快速渲染步骤设置
在线渲染3D模型是一种高效的技术,它允许艺术家和设计师通过互联网访问远程服务器的强大计算能力,从而加速渲染过程。无论是复杂的场景还是高质量的视觉效果,在线渲染服务都能帮助您节省宝贵的时间。 在线渲染3D一般选择的是:云渲染…...
《软件定义安全》之二:SDN/NFV环境中的安全问题
第2章 SDN/NFV环境中的安全问题 1.架构安全 SDN强调了控制平面的集中化,从架构上颠覆了原有的网络管理,所以SDN的架构安全就是首先要解决的问题。例如,SDN实现中网络控制器相关的安全问题。 1.1 SDN架构的安全综述 从网络安全的角度&…...
Qt图表类介绍
本文主要介绍QCharts相关的模块及类。 Qt中图表模块有以下几种类型:折线图,样条曲线图,面积图,散点图,条形图,饼图,方块胡须图,蜡烛图,极坐标图。 QCharts的图表框架类似…...
时隔很久运行苍穹外卖项目,出现很多错误
中途运行了很多其他项目,maven的配置文件还被我修改了一次。导致再次运行苍穹外卖项目出现很多错误。 发现没有办法,把本地的仓库删了个干干净净。然后点击clean发现报错: Cannot access alimaven (http://mavejavascript:void(0);n.aliyun.…...
补篇协程:协程(Coroutine)里通过挂起suspend函数实现异步IO操作
异步IO的概念 异步IO是一种非阻塞的数据读写方法,异步IO与同步IO相对。 当一个异步过程调用发出后,调用者不能立刻得到结果。 实际的IO处理部件在完成操作后,会通过状态、通知或回调机制来通知调用者。 在一个CPU密集型的应用中,…...
qmt量化交易策略小白学习笔记第16期【qmt编程之获取北向南向资金(沪港通,深港通和港股通)】
qmt编程之获取北向南向资金 qmt更加详细的教程方法,会持续慢慢梳理。 也可找寻博主的历史文章,搜索关键词查看解决方案 ! 北向南向资金(沪港通,深港通和港股通) #北向南向资金交易日历 获取交易日列表…...
开源项目学习——vnote
一、介绍 vnote是一款免费且开源的markdown编辑器,用C开发,基于Qt框架,windows/linux/mac都能用。 二、编译 $ git clone --recursive https://github.com/vnotex/vnote.git $ cd vnote && mkdir build $ cd build $ cmake ../ $ …...
5_1 Linux 计划任务
5_1 Linux 计划任务 文章目录 5_1 Linux 计划任务[toc]1. crontab 命令2. 计划任务书写格式 用途:按照设置的时间间隔,为用户反复执行某一固定的系统任务 软件包:cronie、crontabs 系统服务:crond 日志文件:/var/log/c…...
接口框架项目实战-pytest(六)csv数据驱动
csv 数据驱动 为了解决数据量大 导致yaml文件重复太多 yaml_util.py import osimport jsonpath import yamlfrom pytestdemo.common.base_util import get_path from pytestdemo.common.csv_util import analysis_parametersdef read_config_file(one_node,two_node):with ope…...
【Apache Doris】周FAQ集锦:第 5 期
【Apache Doris】周FAQ集锦:第 5 期 SQL问题数据操作问题运维常见问题其它问题关于社区 欢迎查阅本周的 Apache Doris 社区 FAQ 栏目! 在这个栏目中,每周将筛选社区反馈的热门问题和话题,重点回答并进行深入探讨。旨在为广大用户和…...
再读高考作文题
新课标I卷:讨论了随着互联网和人工智能的普及,问题是否会变得越来越少,要求考生写一篇文章,表达自己对于这一现象的联想和思考。 从来就没有什么救世主 AI也不是 一直不会写作文,直到高中,才堪堪…...
小程序中实现自定义头部导航组件
在页面中实现自定义头部导航的组件,如果仅是单个页面中需要自定义可在页面的json文件中配置"navigationStyle": “custom”,如果是项目中所有页面都想使用自定义的组件,可在app.json的window中全局配置"navigationStyle"…...
算数运算符与表达式(打印被10整除的数)
打印100以内(包含100)能被10整除的正整数 #include <stdio.h>#define UPPER 100int main() {int i 1;while (i < UPPER)if (i % 10 0)printf("%d\n", i);return 0; } 自增运算符 i 用于递增变量 i 的值。在 while 循环中…...
kv视频如何转码mp4格式,kv转换mp4最简单方法
在数字化时代,视频格式转换成为了一项日常需求。有时候我们需要把kv格式转换为MP4格式。下面将详细介绍kv转MP4的方法 方法一、 1、使用 "小白兔视频格式在线转换网站" 2、地址发给"小白兔视频格式在线转换网站"的客服,客服下载即可…...
哈夫曼树详解
哈夫曼树 例题 有n堆果子,每堆果子的质量已知,现在需要把这些果子合并成一堆,但是每次只能把两堆果子合并到一起,同时会消耗与两堆果子质量之和等值的体力。显然,在进行n-1次合并之后,就只剩下一堆了。为…...
LangChain4j实战
基础 LangChain4j模型适配: Provider Native Image Sync Completion Streaming Completion Embedding Image Generation Scoring Function Calling OpenAI ✅ ✅ ✅ ✅ ✅ ✅ Azure OpenAI ✅ ✅ ✅ ✅ ✅ Hugging Face ✅ ✅ Amazon Bedrock ✅ ✅…...
57.Semaphore信号量
用来限制能同时访问共享资源的线程上限。只是适合限制单机线程数量。 Slf4j public class SemaphoreDemo {public static void main(String[] args) {Semaphore semaphore new Semaphore(3);for (int i 0; i < 10; i) {new Thread(() -> {try {semaphore.acquire();//…...
生成式人工智能 - 文本反转(Textual Inversion):一种微调稳定扩散模型的方法
一、简述 大型文本到图像稳定扩散模型已经展示了前所未有的能力,可以使用文本提示合成新场景。这些文本到图像模型提供了通过自然语言指导创作的自由。然而,它们的使用受到用户描述特定或独特场景、艺术创作或新实体产品的能力的限制。很多时候,用户被限制行使她的艺术自由来…...
minio的一个基础使用案例:用户头像上传
文章目录 一、minio下载安装(Windows)二、案例需求分析三、后端接口开发 一、minio下载安装(Windows) 1. 下载minio服务端和客户端 minio下载地址 2. 手动搭建目录 /minio/binmc.exeminio.exe/data/logs手动创建minio应用程序目…...
介绍化工项目建设和招聘的网站/河南企业网站建设
传送门 给你串A和串B,|B| < |A| 已知串B有两种可能含义,求串A的总可能含义数 dp[i]表示串A的从头开始长度为i的串的可能意义的数目 若该长度为i的串的后缀与模式串B匹配,则该后缀可以选择替换或者不替换 dp[i] dp[i - 1] dp[i - Bl] 否…...
做ppt的网站/网络营销的基本特征
简介:本文将介绍Solidity语言的调用数据的布局和ABI详解。其中调用数据的布局将主要介绍以太坊合约间调用时的消息格式ABI。 好久时间没有更新文章,前文中我们介绍了Solidity的特性与内部机制,本文我们将Solidity的调用数据的布局和ABI详解。…...
可以做任务赚钱的网站有哪些/百度一下知道官网
QQ邮箱 设置-账户,生成授权码,确认POP3/SMTP服务是已开启的状态。 OutLook 文件 - 添加账户 - 手动设置或其他服务类型 - POP或IMAP 用户名填邮箱账户 其他设置勾选使用与接收邮件服务器相同的配置...
化妆品购物网站模板/公司建网站需要多少钱
js数据类型 基本数据类型:string undefined null boolean number 引用数据类型 Object array function 二者的区别 基本数据类型就是简单的操作值,引用数据类型,把引用地址赋值给变量 var a123;var b{ "name":"zhang…...
设计师培训机构有哪些/开源seo软件
译自Matthew的《A Good Part-of-Speech Tagger in about 200 Lines of Python》,本文用最精简的代码演示了如何写一个基于感知机的高性能词性标注器。以下是正文:自然语言处理的最新技术大部分都停留在学术界,但学术界往往非常谨慎、不愿意把…...
想做一个自己设计公司的网站怎么做的/排名优化关键词
在Excel和Word文档中录入信息时,要说F1-F12的快捷键使用,Sara随口而出的肯定是“F4”,毕竟在Excel表格中的“绝对引用”绕不开它呀,O(∩_∩)O哈哈~这不,今天饶有兴趣的来说说这12个快捷键的简单使用,能记一…...