当前位置: 首页 > news >正文

跨域小样本系列2:常用数据集与任务设定详解

来源:投稿 作者:橡皮
编辑:学姐

带你学习跨域小样本系列1-简介篇

跨域小样本系列2-常用数据集与任务设定详解(本篇)

跨域小样本系列3:元学习方法解决CDFSL以及两篇SOTA论文讲解

跨域小样本系列4:finetune方法解决CDFSL以及两篇SOTA论文讲解

跨域小样本系列5:除此之外一些奇门异路的论文讲解

引言

在上一期主要介绍了关于小样本学习的基本概念以及在不同领域其不可忽视的实际作用。当我们对一个机器学习任务的定义有了初步了解之后,下一步需要去做的就是接触任务所使用的数据集,一般分为两类:真实自定义数据集和公开数据集。

前者主要面向业界的具体落地应用,而后者主要面向学术界的state-of-the-art迭代,通常来讲在公开数据集上的算法更新速度快,自定义数据集的设定其实是根据具体任务并最大程度上追求接近公开数据集的结构。因此,在此总结了较常用的5个公开数据集,方便从学术探究角度的入门理解以及代码复现。

说明

对于小样本学习的公开数据集是否被学术界认可/是否为常用的选择依据均来自paper with code的分类任务排行榜[https://paperswithcode.com/task/few-shot-image-classification]

关于FSL数据集设置

小样本学习的目标是使用数量较少的训练集来构建准确的机器学习模型,可用数据的设定上与其他数据集也不尽相同。

1.Imagenet

Imagenet作为对深度学习领域推动力最大的图像分类数据集,同样也在小样本学习的分类任务中有着不小的贡献。基于Imagenet进行修改设定适用于小样本学习任务的数据集有:Imagenet-1K, mini-Imagenet, tiered-Imagenet。

ImageNet-1K Challenge数据集采样于ImageNet数据集,共包含1000类别。使用中通常划分为基础数据集(389个类别)和新样本数据集(611种)。

[paper]Hariharan B, Girshick R. Low-shot visual recognition by shrinking and hallucinating features[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 3018-3027.

[Download] http://www.image-net.org/

Mini-ImageNet数据集是从ImageNet数据集中采样了60000张图像构成,共包含100类别,每个类别600张图像,图像的尺寸为84*84。在实际的使用中,通常选择其中80类的图像作为训练集,剩余20类的图像作为验证集。也有的文章将其分为基础集(Base Class,64种),验证集(Validation Class,16种)和新类别集(Novel Class,20种)。

[paper]Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning[C]//Advances in neural information processing systems. 2016: 3630-3638.是由 Matching Networks for One Shot Learning [NeurIPS 2016]

[Download]https://pan.baidu.com/share/init?surl=bQTtrkEgWfs_iaVRwxPF3Q(33e7)

Tiered Imagenet数据集也是从ImageNet数据集中选取的,包含34个大类(Categories),每个大类有包含10-30个小类(Classes),每个类别有数量不等的多个图像样本,共计608个类别,779165张图像(平均每个类别包含1281张图片)。34个大类可划分为训练集(20大类),验证集(6大类)和测试集(8大类)。

[paper] Ren M, Triantafillou E, Ravi S, et al. Meta-learning for semi-supervised few-shot classification[J]. arXiv preprint arXiv:1803.00676, 2018.

[Download]https://link.zhihu.com/?target=https%3A//drive.google.com/uc%3Fexport%3Ddownload%26confirm%3D_SLS%26id%3D1g1aIDy2Ar_MViF2gDXFYDBTR-HYecV07

2.CIFAR

CIFAR数据集同样能够通过使用生成mini-ImageNet的相同标准从CIFAR-100(Krizhevsky & Hinton, 2009)中随机抽取的。 平均类间相似度很高,对目前的技术水平是个挑战。此外,32×32的有限原始分辨率使任务更加困难,同时也允许快速的原型设计。由此衍生出两种用于小样本异常检测的CIFAR数据集。

CIFAR-FS

CIFAR-FS数据集全称为CIFAR100 Few-Shots数据集,是来自于CIFAR 100数据集,共包含100类别,每个类别600张图像,合计60,000张图像。使用中通常划分为训练集(64种),验证集(16种)和测试集(20种),图像尺寸统一为32*32。

[paper]Bertinetto L, Henriques J F, Torr P H S, et al. Meta-learning with differentiable closed-form solvers[J]. arXiv preprint arXiv:1805.08136, 2018.

[Download] https://pan.baidu.com/share/init?surl=HqRUw3dmsMBInt_Fh3J_Uw (ub38)

CIFAR100

FC100数据集全称是Few-shot CIFAR100数据集,与上文的CIFAR-FS数据集类似,同样来自CIFAR100数据集,共包含100类别,每个类别600张图像,合计60,000张图像。

但不同之处在于 FC100不是按照类别(Class)进行划分的,而是按照超类(Superclass)进行划分的。共包含20个超类(60个类别),其中训练集12个超类,验证集4个超类(20个类别),测试集4个超类(20个类别)。

[paper] Oreshkin B, López P R, Lacoste A. Tadam: Task dependent adaptive metric for improved few-shot learning[C]//Advances in Neural Information Processing Systems. 2018: 721-731.

[Download] https://pan.baidu.com/share/init?surl=Wnlp1-obKsMLcHITYQ1CLg (kcd6)

3.CUB 200

Caltech-UCSD Birds-200-2011(CUB-200-2011)数据集是最广泛使用的细粒度视觉分类任务的数据集。它包含了属于鸟类的200个子类别的11,788幅图像,其中5,994幅用于训练,5,794幅用于测试。每张图片都有详细的注释。

1个子类别标签,15个部位位置,312个二元属性和1个边界框。文字信息来自于Reed等人。他们通过收集细粒度的自然语言描述来扩展CUB-200-2011数据集。每张图片都收集了10个单句描述。

自然语言描述是通过Amazon Mechanical Turk(AMT)平台收集的,要求至少有10个单词,没有任何子类别和动作的信息。

4.Meta-Dataset

Meta-Dataset基准是一个大型的小样本学习基准,由不同数据分布的多个数据集组成。它并不限制小样本任务有固定的种类和数量,因此代表了一个更真实的场景。它由来自不同领域的10个数据集组成。

  • ILSVRC-2012(ImageNet数据集,由1000个类别的自然图像组成)。

  • Omniglot(手写的字符,1623个类别)

  • Aircraft(飞机图像的数据集,100个类别)

  • CUB-200-2011(鸟类的数据集,200个类别)

  • Describable Textures(不同种类的纹理图像,有43个类别)

  • Quick Draw(345个不同类别的黑白草图)

  • Fungi (一个大型的蘑菇数据集,有1500个类别)

  • VGG Flower(有102个类别的花图像数据集)。

  • Traffic Signs(德国交通标志图像,有43个类别)

  • MSCOCO(从Flickr收集的图像,80个类别)。

除了Aircraft和MSCOCO,所有的数据集都有训练、验证和测试部分(比例大致为70%、15%、15%)。Aircraft和MSCOCO数据集只保留用于测试。

[paper]Triantafillou E, Zhu T, Dumoulin V, et al. Meta-dataset: A dataset of datasets for learning to learn from few examples[J]. arXiv preprint arXiv:1903.03096, 2019.

[Download]https://github.com/google-research/meta-dataset

5.Omniglot

Omniglot数据集是为开发更像人类的学习算法而设计的。它包含来自50个不同语言的1623个不同的手写字符。这1623个字符中的每一个都是由20个不同的人通过亚马逊的Mechanical Turk在线绘制的。每张图片都与笔画数据配对,这是一个[x,y,t]坐标序列,时间(t)为毫秒。使用中通常选择1200种字符作为训练集,剩余的423种字符作为验证集,并通过旋转90°,180°和270°进行数据集扩张,每张图片通过裁剪将尺寸统一为28*28。

[paper]Lake B, Salakhutdinov R, Gross J, et al. One shot learning of simple visual concepts[C]//Proceedings of the annual meeting of the cognitive science society. 2011, 33(33).

[Download]https://github.com/brendenlake/omniglot

以上即为五大类数据集中的8小类专门用于小样本学习算法和模型评估的公开数据集的基本介绍和下载地址。

在进入下一节学习具体的小样本算法之前,建议先阅读提出数据集的论文,先将作者对于不同数据集在小样本学习中所注重的侧重点搞清楚。

下期介绍元学习方法解决CDFSL以及两篇SOTA论文讲解

点击下方卡片关注《学姐带你玩AI》别错过!🚀🚀🚀

码字不易,欢迎大家点赞评论收藏!

相关文章:

跨域小样本系列2:常用数据集与任务设定详解

来源:投稿 作者:橡皮 编辑:学姐 带你学习跨域小样本系列1-简介篇 跨域小样本系列2-常用数据集与任务设定详解(本篇) 跨域小样本系列3:元学习方法解决CDFSL以及两篇SOTA论文讲解 跨域小样本系列4&#xf…...

HTML浪漫动态表白代码+音乐(附源码)

HTML浪漫表白求爱(附源码)&#xff0c;内含4款浪漫的表白源码&#xff0c;可用于520&#xff0c;情人节&#xff0c;生日&#xff0c;求爱场景&#xff0c;下载直接使用。 直接上源码吧 一.红色爱心 1.效果 实际效果是动态的哦 2.源码 复制粘贴即可运行哦 <!DOCTYPE…...

The last packet sent successfully to the server was 0 milliseconds ago. 解决办法

mybatis-generator-maven-plugin插件The last packet sent successfully to the server was 0 milliseconds agoYou must configure either the server or JDBC driver (via the serverTimezone configuration property) to use a more specifc time zone value if you want to…...

分布式高级篇1 —— 全文检索

Elasticsearch Elasticsearch简介一、基本概念1、index(索引)2、Type(类型)3、Document(文档)4、倒排索引二、Docker 安装 EL1、拉取镜像2、创建实例三、初步探索1、_cat2、索引一个文档(保存)3、查询文档3、更新文档4、删除文档&索引5、_bulk 批量 AP6、样本测试数据四、进…...

集成电路开发及应用-模拟数字部分专栏目录

三角波发生器电路图分析_XMJYBY的博客-CSDN博客运算放大器正反馈负反馈判别法_如何理解运算放大器的反馈机制,分哪几种_XMJYBY的博客-CSDN博客运算放大器实现多路同向反向加减运算电路公式推导(一)_反向减法运算电路_XMJYBY的博客-CSDN博客运算放大器实现多路同向反向加减运算电…...

ios使用SARUnArchiveANY 解压rar文件(oc和swift版本)

SARUnArchiveANY简介 开源库网址&#xff1a; https://github.com/saru2020/SARUnArchiveANY 简介&#xff1a; 一个iOS的非常有用的库来解压zip&#xff0c;.rar&#xff0c;7z文件。 他是以下库的简单集成&#xff1a; UnrarKitSSZipArchiveLzmaSDKObjC (7z) 需要注意的是…...

【Python学习笔记】21.Python3 函数(2)

前言 本章介绍调用函数时可使用的正式参数。 参数 以下是调用函数时可使用的正式参数类型&#xff1a; 必需参数关键字参数默认参数不定长参数 必需参数 必需参数须以正确的顺序传入函数。调用时的数量必须和声明时的一样。 调用 printme() 函数&#xff0c;你必须传入一…...

day57回文子串_最长回文子序列

力扣647.回文子串 题目链接&#xff1a;https://leetcode.cn/problems/palindromic-substrings/ 思路 dp数组含义 dp[i][j]:以s[i]为开头&#xff0c;s[j]为结尾的子串是否是回文子串 递推公式 子串范围为[i,j]&#xff0c;当s[i]s[j]时&#xff0c;有三种情况&#xff1…...

Element UI框架学习篇(二)

Element UI框架学习篇(二) 1 整体布局 1.1 前提说明 el-container标签里面的标签默认是从左往右排列,若想要从上往下排列,只需要写el-header或者el-footer就行了 <el-container>&#xff1a;外层容器 <el-header>&#xff1a;顶栏容器。 <el-aside>&#…...

【C++】类与对象(上)

文章目录一、面向过程和面向对象初步认识二、类的引入三、类的定义四、类的访问限定符及封装①访问限定符②封装五、类的作用域六、类的实例化七、类对象模型①如何计算类对象大小②类对象的存储方式③结构体中内存对齐规则八、this指针①this指针的引出②this指针的特性一、面…...

Leetcode.1797 设计一个验证系统

题目链接 Leetcode.1797 设计一个验证系统 Rating : 1534 题目描述 你需要设计一个包含验证码的验证系统。每一次验证中&#xff0c;用户会收到一个新的验证码&#xff0c;这个验证码在 currentTime时刻之后 timeToLive秒过期。如果验证码被更新了&#xff0c;那么它会在 curr…...

Kaldi - 数据文件准备

文章目录数据文件准备wav.scputt2spkspk2utttext相关代码根据文件生成 utt2spk 和 wav.scputt2spk -- spk2utt 转换数据文件准备 在训练/解码中&#xff1a; 有三个文件是必要的&#xff1a; wav.scp 语音编号 – 路径信息utt2spk 语音编号 – 说话人编号spk2utt 说话人编号 …...

91.【SpringBoot-03】

SpringBoot-03(十四)、任务1.异步任务2.邮件任务(1).简单邮箱发送(2).复杂邮箱发送3.定时任务(1).cron表达式(2).特殊表达式(3).定时任务测试(4).常用cron表达式(十五)、Dubbo和Zookeeper集成1.分布式原理(1).Dubbo文档2.什么是RPC?3.Dubbo的概念和介绍(1).Dubbo是什么(2). Du…...

【本地项目】上传到【GitLab】流程详解

文章目录1、安装Git2、创建GitLab项目文件夹3、创建密钥4、向GitLab上传项目注意&#xff1a;本篇文章中提到的上传流程所需要的命令&#xff0c;几乎在GitLab的Command line instructions中都有所记载 1、安装Git 具体安装流程这里不做过多说明&#xff0c;安装流程可以参考…...

初阶指针C

&#x1f680;&#x1f680;&#x1f680;大家觉不错的话&#xff0c;就恳求大家点点关注&#xff0c;点点小爱心&#xff0c;指点指点&#x1f680;&#x1f680;&#x1f680; 目录 &#x1f430;指针是什么 &#x1f430;指针和指针类型 &#x1f338;指针-整数 &#x…...

云原生安全2.X 进化论系列|揭秘云原生安全2.X的五大特征

随着云计算技术的蓬勃发展&#xff0c;传统上云实践中的应用升级缓慢、架构臃肿、无法快速迭代等“痛点”日益明显。能够有效解决这些“痛点”的云原生技术正蓬勃发展&#xff0c;成为赋能业务创新的重要推动力&#xff0c;并已经应用到企业核心业务。然而&#xff0c;云原生技…...

json文件在faster_rcnn中从测试到训练 可行性

1.确认任务 经过mydataset文件处理后 - > 在train_res50_fpn文件内应用 # load train data set # VOCdevkit -> VOC2012 -> ImageSets -> Main -> train.txt train_dataset VOCDataSet(VOC_root, "2012", data_transform["train"], &…...

golang 1.20正式发布,更好更易更强

预期中的Go 2不会有了&#xff0c;1.20也算是一个小gap&#xff0c;从中可以一窥Go未来的发展之路。对于Go来说&#xff0c;未来保持1.x持续演进和兼容性之外&#xff0c;重点就是让Go性能更优&#xff0c;同时保持大道至简原则&#xff0c;使用尽可能容易&#xff0c;从这两个…...

图片显示一半怎么回事?

不知道小伙伴是否遇到过&#xff0c;刚刚上传的一个文件夹&#xff0c;有一多半的图片突然就变成了无法显示该图片或者是图片显示一半&#xff0c;而另外一半就显示灰色蓝色粉色条状。而且还把原文件删除了。面对这种情况&#xff0c;有什么解决方法呢?下面让我们一起来来看看…...

102-并发编程详解(中篇)

这里续写上一章博客 Phaser新特性 &#xff1a; 特性1&#xff1a;动态调整线程个数 CyclicBarrier 所要同步的线程个数是在构造方法中指定的&#xff0c;之后不能更改&#xff0c;而 Phaser 可以在运行期间动态地 调整要同步的线程个数&#xff0c;Phaser 提供了下面这些方…...

[特殊字符] 智能合约中的数据是如何在区块链中保持一致的?

&#x1f9e0; 智能合约中的数据是如何在区块链中保持一致的&#xff1f; 为什么所有区块链节点都能得出相同结果&#xff1f;合约调用这么复杂&#xff0c;状态真能保持一致吗&#xff1f;本篇带你从底层视角理解“状态一致性”的真相。 一、智能合约的数据存储在哪里&#xf…...

云原生核心技术 (7/12): K8s 核心概念白话解读(上):Pod 和 Deployment 究竟是什么?

大家好&#xff0c;欢迎来到《云原生核心技术》系列的第七篇&#xff01; 在上一篇&#xff0c;我们成功地使用 Minikube 或 kind 在自己的电脑上搭建起了一个迷你但功能完备的 Kubernetes 集群。现在&#xff0c;我们就像一个拥有了一块崭新数字土地的农场主&#xff0c;是时…...

地震勘探——干扰波识别、井中地震时距曲线特点

目录 干扰波识别反射波地震勘探的干扰波 井中地震时距曲线特点 干扰波识别 有效波&#xff1a;可以用来解决所提出的地质任务的波&#xff1b;干扰波&#xff1a;所有妨碍辨认、追踪有效波的其他波。 地震勘探中&#xff0c;有效波和干扰波是相对的。例如&#xff0c;在反射波…...

多场景 OkHttpClient 管理器 - Android 网络通信解决方案

下面是一个完整的 Android 实现&#xff0c;展示如何创建和管理多个 OkHttpClient 实例&#xff0c;分别用于长连接、普通 HTTP 请求和文件下载场景。 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas…...

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility 1. 实验室环境1.1 实验室环境1.2 小测试 2. The Endor System2.1 部署应用2.2 检查现有策略 3. Cilium 策略实体3.1 创建 allow-all 网络策略3.2 在 Hubble CLI 中验证网络策略源3.3 …...

基于Uniapp开发HarmonyOS 5.0旅游应用技术实践

一、技术选型背景 1.跨平台优势 Uniapp采用Vue.js框架&#xff0c;支持"一次开发&#xff0c;多端部署"&#xff0c;可同步生成HarmonyOS、iOS、Android等多平台应用。 2.鸿蒙特性融合 HarmonyOS 5.0的分布式能力与原子化服务&#xff0c;为旅游应用带来&#xf…...

Qt Http Server模块功能及架构

Qt Http Server 是 Qt 6.0 中引入的一个新模块&#xff0c;它提供了一个轻量级的 HTTP 服务器实现&#xff0c;主要用于构建基于 HTTP 的应用程序和服务。 功能介绍&#xff1a; 主要功能 HTTP服务器功能&#xff1a; 支持 HTTP/1.1 协议 简单的请求/响应处理模型 支持 GET…...

Java入门学习详细版(一)

大家好&#xff0c;Java 学习是一个系统学习的过程&#xff0c;核心原则就是“理论 实践 坚持”&#xff0c;并且需循序渐进&#xff0c;不可过于着急&#xff0c;本篇文章推出的这份详细入门学习资料将带大家从零基础开始&#xff0c;逐步掌握 Java 的核心概念和编程技能。 …...

Maven 概述、安装、配置、仓库、私服详解

目录 1、Maven 概述 1.1 Maven 的定义 1.2 Maven 解决的问题 1.3 Maven 的核心特性与优势 2、Maven 安装 2.1 下载 Maven 2.2 安装配置 Maven 2.3 测试安装 2.4 修改 Maven 本地仓库的默认路径 3、Maven 配置 3.1 配置本地仓库 3.2 配置 JDK 3.3 IDEA 配置本地 Ma…...

【Nginx】使用 Nginx+Lua 实现基于 IP 的访问频率限制

使用 NginxLua 实现基于 IP 的访问频率限制 在高并发场景下&#xff0c;限制某个 IP 的访问频率是非常重要的&#xff0c;可以有效防止恶意攻击或错误配置导致的服务宕机。以下是一个详细的实现方案&#xff0c;使用 Nginx 和 Lua 脚本结合 Redis 来实现基于 IP 的访问频率限制…...