自然语言处理: RAG优化之Embedding模型选型重要依据:mteb/leaderboard榜
本人项目地址大全:Victor94-king/NLP__ManVictor: CSDN of ManVictor
git地址:https://github.com/opendatalab/MinerU
写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!
写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!
写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!
近期RAG 应用不断涌现,它们的性能表现各具特色。尽管我们可以通过多个方面(例如查询改写、图像数据处理、分块策略、元数据管理、密集检索、稀疏检索、结果重排、排序融合、提示词优化以及上下文压缩等)逐步优化这些应用,但在选择 SOTA(State-of-the-Art)模型时,参考开源排行榜依然是必不可少的步骤。mteb/leaderboard 是一个极为有用的资源,它能帮助您了解并选择符合您需求的多语言文本生成模型。例如,在RAG系统中,无论是中文还是英文的向量化模型、重排模型或摘要模型的选择,都可以通过该榜单获得直观且量化的参考依据。

MTEB Leaderboard
MTEB(Multilingual Text-to-Text Evaluation Benchmark)是一个多语言文本嵌入的评估基准,旨在评估和比较不同多语言文本生成模型的性能。排行榜页面展示了各种模型在多个任务上的表现,这些任务可能包括但不限于翻译、摘要、问答等。
-
https://huggingface.co/spaces/mteb/leaderboard
-
C-MTEB(Chinese Massive Text Embedding Benchmark)中文语义向量评测基准
-
评测任务:包括涵盖112种语言的58个数据集

在 MTEB 的排行榜页面上,可以看到:
- 不同模型的名称 :列出参与评估的各种模型。
- 各项任务的得分 :每个模型在不同任务上的性能评分。
- 综合排名 :根据各项任务的得分对模型进行综合排名。
这个排行榜页面对于研究人员和开发者非常有用,因为它提供了:
- 模型性能的直观对比 :帮助选择最适合特定任务的模型。
- 最新进展的跟踪 :了解当前多语言文本生成领域的最新进展和技术趋势。
- 基准测试的参考 :为新模型的开发和评估提供基准。
如何使用
- 查看模型性能 :浏览排行榜,了解不同模型在各个任务上的表现。
- 获取模型信息 :点击模型名称或链接,可以跳转到模型的详细页面,获取更多信息和使用方法。
- 参与评估 :如果你有自己的模型,可以按照 MTEB 的评估标准提交模型进行测试,加入排行榜。
了解任务相关概念
TASK CATEGORY(任务类别)
| 枚举值 | 中文翻译 | 含义解释 |
|---|---|---|
| s2s | 句子到句子 | 任务涉及将单个句子转换或处理成另一个句子。 |
| s2p | 句子到段落 | 任务涉及将单个句子转换或处理成段落。 |
| p2p | 段落到段落 | 任务涉及将段落转换或处理成另一个段落。 |
TASK TYPE(任务类型)
| 枚举值 | 中文翻译 | 含义解释 |
|---|---|---|
| Retrieval | 检索 | 从大量数据中检索出相关信息。 |
| Reranking | 重排 | 根据某种标准重新排序数据。 |
| STS | 语义文本相似度 | 评估两个文本之间的语义相似度。 |
| Summarization | 摘要 | 生成文本的简短摘要。 |
| InstructionRetrieval | 指令检索 | 检索与特定指令相关的信息。 |
| Speed | 速度 | 评估处理或响应的速度。 |
| BitextMining | 双语文本挖掘 | 从双语文本中挖掘信息。 |
| Classification | 分类 | 将数据分配到预定义的类别中。 |
| MultilabelClassification | 多标签分类 | 为数据分配多个类别标签。 |
| Clustering | 聚类 | 将数据分组,使得同一组内的数据点相似度高。 |
| PairClassification | 配对分类 | 对成对的数据进行分类。 |
TASK SUBTYPE(任务子类型)
| 枚举值 | 中文翻译 | 含义解释 |
|---|---|---|
| Article retrieval | 文章检索 | 从大量文章中检索出与查询相关的文档。 |
| Conversational retrieval | 对话检索 | 检索与对话上下文相关的信息或回复。 |
| Dialect pairing | 方言配对 | 识别和匹配不同方言之间的对应关系。 |
| Dialog Systems | 对话系统 | 构建能够与用户进行自然对话的系统。 |
| Discourse coherence | 话语连贯性 | 评估或生成连贯、逻辑一致的长篇话语。 |
| Language identification | 语言识别 | 识别文本所使用的语言。 |
| Linguistic acceptability | 语言可接受性 | 评估文本是否符合语言学的规范。 |
| Political classification | 政治分类 | 根据政治倾向对信息进行分类。 |
| Question answering | 问答 | 回答用户提出的问题。 |
| Sentiment/Hate speech | 情感/仇恨言论 | 识别文本中的情感倾向或仇恨言论。 |
| Thematic clustering | 主题聚类 | 将文本根据主题进行分组。 |
| Scientific Reranking | 科学重排 | 对科学文献或信息进行重新排序。 |
| Claim verification | 事实核查 | 验证声明或信息的真实性。 |
| Topic classification | 主题分类 | 将文本按照主题进行分类。 |
| Code retrieval | 代码检索 | 检索与编程问题相关的代码片段。 |
| Cross-Lingual Semantic Discrimination | 跨语言语义区分 | 区分不同语言中相似词汇的语义差异。 |
| Textual Entailment | 文本蕴含 | 判断一个句子是否能够从另一个句子逻辑上推导出来。 |
| Counterfactual Detection | 反事实检测 | 识别和处理反事实或假设性陈述。 |
| Emotion classification | 情感分类 | 对文本中表达的情感进行分类。 |
| Reasoning as Retrieval | 推理检索 | 通过检索相关信息来辅助推理过程。 |
| Duplicate Detection | 重复检测 | 识别和处理重复或相似的内容。 |
C-MTEB(Chinese Massive Text Embedding Benchmark)榜单是专门用来评估中文Embedding模型的多任务混合评测榜单,包含了Classification、Clustering、Pair Classification、Reranking、Retrieval、STS六种任务类型,共35个公开数据集。
其中, Retrieval作为检索场景下最常用、最重要的测试任务 ,被广泛应用与大模型应用的落地场景,Retrieval任务包括查询语句和语料库,对于每个查询,从语料库中查询最相似的top-k个文档,使用BEIR相同的设置,nDCG@10是主要指标。
Retrieval是C-MTEB中的一个任务方向,共包含8个 中文文本数据集 ,涉及医疗、政策、电商、娱乐等各个方面。数据集主要有三部分组成:query、corpus、dev,其中query为中文问题,corpus为中文文档,包括了query的回答,该任务主要就是从海量corpus中检索出与query最为相关的内容。
Retrieval任务的8个子任务 :
- Ecom:中文电商领域检索任务;
- Medical:中文医疗领域检索任务;
- Covid:中文政策文件类检索任务;
- Video:中文娱乐视频领域检索任务;
- T2:来源于搜索引擎的段落排序中文基准测试;
- Dureader:来源于百度搜索引擎的段落检索任务;
- Mmarco:中文微软问答文摘检索测试;
- Cmedqa2:中文社区医疗问答测试
相关文章:
自然语言处理: RAG优化之Embedding模型选型重要依据:mteb/leaderboard榜
本人项目地址大全:Victor94-king/NLP__ManVictor: CSDN of ManVictor git地址:https://github.com/opendatalab/MinerU 写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!! 写在前面: 笔者更新不易,希望走过路…...
鸿蒙主流路由详解
鸿蒙主流路由详解 Navigation Navigation更适合于一次开发,多端部署,也是官方主流推荐的一种路由控制方式,但是,使用起来入侵耦合度高,所以,一般会使用HMRouter,这也是官方主流推荐的路由 Navigation官网地址 个人源码地址 路由跳转 第一步-定义路由栈 Provide(PageInfo) pag…...
C#构建一个简单的循环神经网络,模拟对话
循环神经网络(Recurrent Neural Network, RNN)是一种用于处理序列数据的神经网络模型。与传统的前馈神经网络不同,RNN具有内部记忆能力,可以捕捉到序列中元素之间的依赖关系。这种特性使得RNN在自然语言处理、语音识别、时间序列预…...
Linux上安装单机版Kibana6.8.1
1. 下载安装包 kibana-6.8.1-linux-x86_64.tar.gz 链接:https://pan.baidu.com/s/1b4kION9wFXIVHuWDn2J-Aw 提取码:rdrc 2. Kibana启动不能使用root用户,使用ES里创建的elsearch用户,进行赋权: chown -R elsearch:els…...
短视频矩阵矩阵,矩阵号策略
随着数字媒体的迅猛发展,短视频平台已经成为企业和个人品牌推广的核心渠道。在这一背景下,短视频矩阵营销策略应运而生,它通过高效整合和管理多个短视频账号,实现资源的最优配置和营销效果的最大化。本文旨在深入探讨短视频矩阵的…...
Rust 力扣 - 2266. 统计打字方案数
文章目录 题目描述题解思路题解代码题目链接 题目描述 题解思路 这题可以先求按了多少次相同连续的按钮,所有的连续相同按钮表示的方案数的乘积就是本题答案 我们的关键问题就转换成了按n个连续相同按钮表示的方案数 设f(i)表示按i个连续相同按钮表示的方案数 如…...
【大数据技术与开发实训】携程景点在线评论分析
景点在线评论分析 题目要求实验目标技术实现数据采集获取所有相关景点页面的 URL获取所有相关景点对应的 poiId 及其他有用信息通过 poiId 获取所有景点的全部评论数据采集结果 数据预处理景点信息的数据预处理查看数据基本信息缺失值处理 用户评论的数据处理缺失值处理分词、去…...
46.坑王驾到第十期:vscode 无法使用 tsc 命令
点赞收藏加关注,你也能住大别墅! 一、问题重现 上一篇帖子记录了我昨天在mac上安装typescript及调试的过程。今天打开vscode准备开干的时候,发现tsc命令又无法使用了,然后按照昨天的方法重新安装调试后又能用了,但是关…...
postman 调用 下载接口(download)使用默认名称(response.txt 或随机名称)
官网地址:https://www.postman.com 介绍 Postman 是一款流行的 API 开发和测试工具,用于发送 HTTP 请求、测试接口、调试服务器响应以及进行 API 文档管理。它支持多种请求类型(如 GET、POST、PUT、DELETE 等),并且功能…...
单片机_简单AI模型训练与部署__从0到0.9
IDE: CLion MCU: STM32F407VET6 一、导向 以求知为导向,从问题到寻求问题解决的方法,以兴趣驱动学习。 虽从0,但不到1,剩下的那一小步将由你迈出。本篇主要目的是体验完整的一次简单AI模型部署流程&#x…...
对撞双指针(七)三数之和
15. 三数之和 给你一个整数数组 nums ,判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k ,同时还满足 nums[i] nums[j] nums[k] 0 。请你返回所有和为 0 且不重复的三元组。 注意:答案中不可以包含重复的三元组…...
【Ubuntu24.04】服务部署(虚拟机)
目录 0 背景1 安装虚拟机1.1 下载虚拟机软件1.2 安装虚拟机软件1.2 安装虚拟电脑 2 配置虚拟机2.1 配置虚拟机网络及运行初始化脚本2.2 配置服务运行环境2.2.1 安装并配置JDK172.2.2 安装并配置MySQL8.42.2.3 安装并配置Redis 3 部署服务4 总结 0 背景 你的服务部署在了你的计算…...
timm库加载的模型可视化
在深度学习中,模型的可视化有助于了解模型的结构和层级关系。以下是几种方式来可视化使用 timm 库加载的模型: 打印模型结构 torch.nn.Module 的子类(包括 timm 的模型)可以通过 print() 查看其结构:import timm# 加…...
服务限流、降级、熔断-SpringCloud
本文所使用的组件:Nacos(服务中心和注册中心)、OpenFeign(服务调用)、Sentinel(限流、降级)、Hystrix(熔断) 项目结构: service-provider:提供服…...
2024最新YT-DLP使用demo网页端渲染
2024最新YT-DLP使用demo网页端渲染 前提摘要1.使用python的fastapi库和jinjia2库进行前端渲染2.代码实现1)目录结构2)代码style.cssindex.htmlresult.htmlmain.pyrun.py 3)运行测试命令端运行 3.项目下载地址 前提摘要 2024最新python使用yt…...
《第十部分》1.STM32之通信接口《精讲》之IIC通信---介绍
经过近一周的USART学习,我深刻体会到通信对单片机的重要性。它就像人类的手脚和大脑,只有掌握了通信技术,单片机才能与外界交互,展现出丰富多彩的功能,变得更加强大和实用。 单片机最基础的“语言”是二进制。可惜&am…...
wireshark使用lua解析自定义协议
wireshark解析自定义协议 1.自定义的lua放入路径2.修改init.lua2.1 开启lua2.2 init.lua文件最后加入自己的lua文件位置,这里需要确保与自己的文件名相同 3.编写lua4.编写c抓包5.wireshark添加自定义协议如何加调试信息 1.自定义的lua放入路径 一般是自己软件的安装…...
(Keil)MDK-ARM各种优化选项详细说明、实际应用及拓展内容
参考 MDK-ARM各种优化选项详细说明、实际应用及拓展内容 本文围绕MDK-ARM优化选项,以及相关拓展知识(微库、实际应用、调试)进行讲述,希望对你今后开发项目有所帮助。 1 总述 我们所指的优化,主要两方面: 1.代码大小(Size) 2.代码性能(运行时间) 在MDK-ARM中,优…...
Qt实现可拖拽的矩形
之前项目上需要用Qt来绘制可拖拽改变形状的矩形。看了Qt Graphics相关的内容,虽然对Qt怎么添加图元的有了些了解,但是具体如何实现拖拽效果,一时也没有什么好的想法。还好网上有人分享的例子,很受启发。后来又回顾了一下这部分的代…...
CentOS:A服务器主动给B服务器推送(上传),B服务器下载A服务器文件(下载)
Linux:常识(bash: ip command not found )_bash: ip: command not found-CSDN博客 rsync 中断后先判断程序是否自动重连:ps aux | grep rsync 查看目录/文件是否被使用(查询线程占用):lsof /usr/local/bin/mongodump/.B_database1.6uRCTp 场景:MongoDB中集合非常大需要…...
脑机新手指南(八):OpenBCI_GUI:从环境搭建到数据可视化(下)
一、数据处理与分析实战 (一)实时滤波与参数调整 基础滤波操作 60Hz 工频滤波:勾选界面右侧 “60Hz” 复选框,可有效抑制电网干扰(适用于北美地区,欧洲用户可调整为 50Hz)。 平滑处理&…...
(二)原型模式
原型的功能是将一个已经存在的对象作为源目标,其余对象都是通过这个源目标创建。发挥复制的作用就是原型模式的核心思想。 一、源型模式的定义 原型模式是指第二次创建对象可以通过复制已经存在的原型对象来实现,忽略对象创建过程中的其它细节。 📌 核心特点: 避免重复初…...
苍穹外卖--缓存菜品
1.问题说明 用户端小程序展示的菜品数据都是通过查询数据库获得,如果用户端访问量比较大,数据库访问压力随之增大 2.实现思路 通过Redis来缓存菜品数据,减少数据库查询操作。 缓存逻辑分析: ①每个分类下的菜品保持一份缓存数据…...
华为云Flexus+DeepSeek征文|DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建
华为云FlexusDeepSeek征文|DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建 前言 如今大模型其性能出色,华为云 ModelArts Studio_MaaS大模型即服务平台华为云内置了大模型,能助力我们轻松驾驭 DeepSeek-V3/R1,本文中将分享如何…...
图表类系列各种样式PPT模版分享
图标图表系列PPT模版,柱状图PPT模版,线状图PPT模版,折线图PPT模版,饼状图PPT模版,雷达图PPT模版,树状图PPT模版 图表类系列各种样式PPT模版分享:图表系列PPT模板https://pan.quark.cn/s/20d40aa…...
Android第十三次面试总结(四大 组件基础)
Activity生命周期和四大启动模式详解 一、Activity 生命周期 Activity 的生命周期由一系列回调方法组成,用于管理其创建、可见性、焦点和销毁过程。以下是核心方法及其调用时机: onCreate() 调用时机:Activity 首次创建时调用。…...
算法:模拟
1.替换所有的问号 1576. 替换所有的问号 - 力扣(LeetCode) 遍历字符串:通过外层循环逐一检查每个字符。遇到 ? 时处理: 内层循环遍历小写字母(a 到 z)。对每个字母检查是否满足: 与…...
08. C#入门系列【类的基本概念】:开启编程世界的奇妙冒险
C#入门系列【类的基本概念】:开启编程世界的奇妙冒险 嘿,各位编程小白探险家!欢迎来到 C# 的奇幻大陆!今天咱们要深入探索这片大陆上至关重要的 “建筑”—— 类!别害怕,跟着我,保准让你轻松搞…...
RSS 2025|从说明书学习复杂机器人操作任务:NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill
视觉语言模型(Vision-Language Models, VLMs),为真实环境中的机器人操作任务提供了极具潜力的解决方案。 尽管 VLMs 取得了显著进展,机器人仍难以胜任复杂的长时程任务(如家具装配),主要受限于人…...
解析奥地利 XARION激光超声检测系统:无膜光学麦克风 + 无耦合剂的技术协同优势及多元应用
在工业制造领域,无损检测(NDT)的精度与效率直接影响产品质量与生产安全。奥地利 XARION开发的激光超声精密检测系统,以非接触式光学麦克风技术为核心,打破传统检测瓶颈,为半导体、航空航天、汽车制造等行业提供了高灵敏…...
