跨域小样本系列2:常用数据集与任务设定详解
来源:投稿 作者:橡皮
编辑:学姐
带你学习跨域小样本系列1-简介篇
跨域小样本系列2-常用数据集与任务设定详解(本篇)
跨域小样本系列3:元学习方法解决CDFSL以及两篇SOTA论文讲解
跨域小样本系列4:finetune方法解决CDFSL以及两篇SOTA论文讲解
跨域小样本系列5:除此之外一些奇门异路的论文讲解
引言
在上一期主要介绍了关于小样本学习的基本概念以及在不同领域其不可忽视的实际作用。当我们对一个机器学习任务的定义有了初步了解之后,下一步需要去做的就是接触任务所使用的数据集,一般分为两类:真实自定义数据集和公开数据集。
前者主要面向业界的具体落地应用,而后者主要面向学术界的state-of-the-art迭代,通常来讲在公开数据集上的算法更新速度快,自定义数据集的设定其实是根据具体任务并最大程度上追求接近公开数据集的结构。因此,在此总结了较常用的5个公开数据集,方便从学术探究角度的入门理解以及代码复现。
说明
对于小样本学习的公开数据集是否被学术界认可/是否为常用的选择依据均来自paper with code的分类任务排行榜[https://paperswithcode.com/task/few-shot-image-classification]
关于FSL数据集设置
小样本学习的目标是使用数量较少的训练集来构建准确的机器学习模型,可用数据的设定上与其他数据集也不尽相同。
1.Imagenet
Imagenet作为对深度学习领域推动力最大的图像分类数据集,同样也在小样本学习的分类任务中有着不小的贡献。基于Imagenet进行修改设定适用于小样本学习任务的数据集有:Imagenet-1K, mini-Imagenet, tiered-Imagenet。
ImageNet-1K Challenge数据集采样于ImageNet数据集,共包含1000类别。使用中通常划分为基础数据集(389个类别)和新样本数据集(611种)。
[paper]Hariharan B, Girshick R. Low-shot visual recognition by shrinking and hallucinating features[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 3018-3027.
[Download] http://www.image-net.org/
Mini-ImageNet数据集是从ImageNet数据集中采样了60000张图像构成,共包含100类别,每个类别600张图像,图像的尺寸为84*84。在实际的使用中,通常选择其中80类的图像作为训练集,剩余20类的图像作为验证集。也有的文章将其分为基础集(Base Class,64种),验证集(Validation Class,16种)和新类别集(Novel Class,20种)。
[paper]Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning[C]//Advances in neural information processing systems. 2016: 3630-3638.是由 Matching Networks for One Shot Learning [NeurIPS 2016]
[Download]https://pan.baidu.com/share/init?surl=bQTtrkEgWfs_iaVRwxPF3Q(33e7)
Tiered Imagenet数据集也是从ImageNet数据集中选取的,包含34个大类(Categories),每个大类有包含10-30个小类(Classes),每个类别有数量不等的多个图像样本,共计608个类别,779165张图像(平均每个类别包含1281张图片)。34个大类可划分为训练集(20大类),验证集(6大类)和测试集(8大类)。
[paper] Ren M, Triantafillou E, Ravi S, et al. Meta-learning for semi-supervised few-shot classification[J]. arXiv preprint arXiv:1803.00676, 2018.
[Download]https://link.zhihu.com/?target=https%3A//drive.google.com/uc%3Fexport%3Ddownload%26confirm%3D_SLS%26id%3D1g1aIDy2Ar_MViF2gDXFYDBTR-HYecV07
2.CIFAR
CIFAR数据集同样能够通过使用生成mini-ImageNet的相同标准从CIFAR-100(Krizhevsky & Hinton, 2009)中随机抽取的。 平均类间相似度很高,对目前的技术水平是个挑战。此外,32×32的有限原始分辨率使任务更加困难,同时也允许快速的原型设计。由此衍生出两种用于小样本异常检测的CIFAR数据集。
CIFAR-FS
CIFAR-FS数据集全称为CIFAR100 Few-Shots数据集,是来自于CIFAR 100数据集,共包含100类别,每个类别600张图像,合计60,000张图像。使用中通常划分为训练集(64种),验证集(16种)和测试集(20种),图像尺寸统一为32*32。
[paper]Bertinetto L, Henriques J F, Torr P H S, et al. Meta-learning with differentiable closed-form solvers[J]. arXiv preprint arXiv:1805.08136, 2018.
[Download] https://pan.baidu.com/share/init?surl=HqRUw3dmsMBInt_Fh3J_Uw (ub38)
CIFAR100
FC100数据集全称是Few-shot CIFAR100数据集,与上文的CIFAR-FS数据集类似,同样来自CIFAR100数据集,共包含100类别,每个类别600张图像,合计60,000张图像。
但不同之处在于 FC100不是按照类别(Class)进行划分的,而是按照超类(Superclass)进行划分的。共包含20个超类(60个类别),其中训练集12个超类,验证集4个超类(20个类别),测试集4个超类(20个类别)。
[paper] Oreshkin B, López P R, Lacoste A. Tadam: Task dependent adaptive metric for improved few-shot learning[C]//Advances in Neural Information Processing Systems. 2018: 721-731.
[Download] https://pan.baidu.com/share/init?surl=Wnlp1-obKsMLcHITYQ1CLg (kcd6)
3.CUB 200
Caltech-UCSD Birds-200-2011(CUB-200-2011)数据集是最广泛使用的细粒度视觉分类任务的数据集。它包含了属于鸟类的200个子类别的11,788幅图像,其中5,994幅用于训练,5,794幅用于测试。每张图片都有详细的注释。
1个子类别标签,15个部位位置,312个二元属性和1个边界框。文字信息来自于Reed等人。他们通过收集细粒度的自然语言描述来扩展CUB-200-2011数据集。每张图片都收集了10个单句描述。
自然语言描述是通过Amazon Mechanical Turk(AMT)平台收集的,要求至少有10个单词,没有任何子类别和动作的信息。
4.Meta-Dataset
Meta-Dataset基准是一个大型的小样本学习基准,由不同数据分布的多个数据集组成。它并不限制小样本任务有固定的种类和数量,因此代表了一个更真实的场景。它由来自不同领域的10个数据集组成。
-
ILSVRC-2012(ImageNet数据集,由1000个类别的自然图像组成)。
-
Omniglot(手写的字符,1623个类别)
-
Aircraft(飞机图像的数据集,100个类别)
-
CUB-200-2011(鸟类的数据集,200个类别)
-
Describable Textures(不同种类的纹理图像,有43个类别)
-
Quick Draw(345个不同类别的黑白草图)
-
Fungi (一个大型的蘑菇数据集,有1500个类别)
-
VGG Flower(有102个类别的花图像数据集)。
-
Traffic Signs(德国交通标志图像,有43个类别)
-
MSCOCO(从Flickr收集的图像,80个类别)。
除了Aircraft和MSCOCO,所有的数据集都有训练、验证和测试部分(比例大致为70%、15%、15%)。Aircraft和MSCOCO数据集只保留用于测试。
[paper]Triantafillou E, Zhu T, Dumoulin V, et al. Meta-dataset: A dataset of datasets for learning to learn from few examples[J]. arXiv preprint arXiv:1903.03096, 2019.
[Download]https://github.com/google-research/meta-dataset
5.Omniglot
Omniglot数据集是为开发更像人类的学习算法而设计的。它包含来自50个不同语言的1623个不同的手写字符。这1623个字符中的每一个都是由20个不同的人通过亚马逊的Mechanical Turk在线绘制的。每张图片都与笔画数据配对,这是一个[x,y,t]坐标序列,时间(t)为毫秒。使用中通常选择1200种字符作为训练集,剩余的423种字符作为验证集,并通过旋转90°,180°和270°进行数据集扩张,每张图片通过裁剪将尺寸统一为28*28。
[paper]Lake B, Salakhutdinov R, Gross J, et al. One shot learning of simple visual concepts[C]//Proceedings of the annual meeting of the cognitive science society. 2011, 33(33).
[Download]https://github.com/brendenlake/omniglot
以上即为五大类数据集中的8小类专门用于小样本学习算法和模型评估的公开数据集的基本介绍和下载地址。
在进入下一节学习具体的小样本算法之前,建议先阅读提出数据集的论文,先将作者对于不同数据集在小样本学习中所注重的侧重点搞清楚。
下期介绍元学习方法解决CDFSL以及两篇SOTA论文讲解
点击下方卡片关注《学姐带你玩AI》别错过!🚀🚀🚀
码字不易,欢迎大家点赞评论收藏!
相关文章:
跨域小样本系列2:常用数据集与任务设定详解
来源:投稿 作者:橡皮 编辑:学姐 带你学习跨域小样本系列1-简介篇 跨域小样本系列2-常用数据集与任务设定详解(本篇) 跨域小样本系列3:元学习方法解决CDFSL以及两篇SOTA论文讲解 跨域小样本系列4…...
HTML浪漫动态表白代码+音乐(附源码)
HTML浪漫表白求爱(附源码),内含4款浪漫的表白源码,可用于520,情人节,生日,求爱场景,下载直接使用。 直接上源码吧 一.红色爱心 1.效果 实际效果是动态的哦 2.源码 复制粘贴即可运行哦 <!DOCTYPE…...
The last packet sent successfully to the server was 0 milliseconds ago. 解决办法
mybatis-generator-maven-plugin插件The last packet sent successfully to the server was 0 milliseconds agoYou must configure either the server or JDBC driver (via the serverTimezone configuration property) to use a more specifc time zone value if you want to…...
分布式高级篇1 —— 全文检索
Elasticsearch Elasticsearch简介一、基本概念1、index(索引)2、Type(类型)3、Document(文档)4、倒排索引二、Docker 安装 EL1、拉取镜像2、创建实例三、初步探索1、_cat2、索引一个文档(保存)3、查询文档3、更新文档4、删除文档&索引5、_bulk 批量 AP6、样本测试数据四、进…...
集成电路开发及应用-模拟数字部分专栏目录
三角波发生器电路图分析_XMJYBY的博客-CSDN博客运算放大器正反馈负反馈判别法_如何理解运算放大器的反馈机制,分哪几种_XMJYBY的博客-CSDN博客运算放大器实现多路同向反向加减运算电路公式推导(一)_反向减法运算电路_XMJYBY的博客-CSDN博客运算放大器实现多路同向反向加减运算电…...
ios使用SARUnArchiveANY 解压rar文件(oc和swift版本)
SARUnArchiveANY简介 开源库网址: https://github.com/saru2020/SARUnArchiveANY 简介: 一个iOS的非常有用的库来解压zip,.rar,7z文件。 他是以下库的简单集成: UnrarKitSSZipArchiveLzmaSDKObjC (7z) 需要注意的是…...
【Python学习笔记】21.Python3 函数(2)
前言 本章介绍调用函数时可使用的正式参数。 参数 以下是调用函数时可使用的正式参数类型: 必需参数关键字参数默认参数不定长参数 必需参数 必需参数须以正确的顺序传入函数。调用时的数量必须和声明时的一样。 调用 printme() 函数,你必须传入一…...
day57回文子串_最长回文子序列
力扣647.回文子串 题目链接:https://leetcode.cn/problems/palindromic-substrings/ 思路 dp数组含义 dp[i][j]:以s[i]为开头,s[j]为结尾的子串是否是回文子串 递推公式 子串范围为[i,j],当s[i]s[j]时,有三种情况࿱…...
Element UI框架学习篇(二)
Element UI框架学习篇(二) 1 整体布局 1.1 前提说明 el-container标签里面的标签默认是从左往右排列,若想要从上往下排列,只需要写el-header或者el-footer就行了 <el-container>:外层容器 <el-header>:顶栏容器。 <el-aside>&#…...
【C++】类与对象(上)
文章目录一、面向过程和面向对象初步认识二、类的引入三、类的定义四、类的访问限定符及封装①访问限定符②封装五、类的作用域六、类的实例化七、类对象模型①如何计算类对象大小②类对象的存储方式③结构体中内存对齐规则八、this指针①this指针的引出②this指针的特性一、面…...
Leetcode.1797 设计一个验证系统
题目链接 Leetcode.1797 设计一个验证系统 Rating : 1534 题目描述 你需要设计一个包含验证码的验证系统。每一次验证中,用户会收到一个新的验证码,这个验证码在 currentTime时刻之后 timeToLive秒过期。如果验证码被更新了,那么它会在 curr…...
Kaldi - 数据文件准备
文章目录数据文件准备wav.scputt2spkspk2utttext相关代码根据文件生成 utt2spk 和 wav.scputt2spk -- spk2utt 转换数据文件准备 在训练/解码中: 有三个文件是必要的: wav.scp 语音编号 – 路径信息utt2spk 语音编号 – 说话人编号spk2utt 说话人编号 …...
91.【SpringBoot-03】
SpringBoot-03(十四)、任务1.异步任务2.邮件任务(1).简单邮箱发送(2).复杂邮箱发送3.定时任务(1).cron表达式(2).特殊表达式(3).定时任务测试(4).常用cron表达式(十五)、Dubbo和Zookeeper集成1.分布式原理(1).Dubbo文档2.什么是RPC?3.Dubbo的概念和介绍(1).Dubbo是什么(2). Du…...
【本地项目】上传到【GitLab】流程详解
文章目录1、安装Git2、创建GitLab项目文件夹3、创建密钥4、向GitLab上传项目注意:本篇文章中提到的上传流程所需要的命令,几乎在GitLab的Command line instructions中都有所记载 1、安装Git 具体安装流程这里不做过多说明,安装流程可以参考…...
初阶指针C
🚀🚀🚀大家觉不错的话,就恳求大家点点关注,点点小爱心,指点指点🚀🚀🚀 目录 🐰指针是什么 🐰指针和指针类型 🌸指针-整数 &#x…...
云原生安全2.X 进化论系列|揭秘云原生安全2.X的五大特征
随着云计算技术的蓬勃发展,传统上云实践中的应用升级缓慢、架构臃肿、无法快速迭代等“痛点”日益明显。能够有效解决这些“痛点”的云原生技术正蓬勃发展,成为赋能业务创新的重要推动力,并已经应用到企业核心业务。然而,云原生技…...
json文件在faster_rcnn中从测试到训练 可行性
1.确认任务 经过mydataset文件处理后 - > 在train_res50_fpn文件内应用 # load train data set # VOCdevkit -> VOC2012 -> ImageSets -> Main -> train.txt train_dataset VOCDataSet(VOC_root, "2012", data_transform["train"], &…...
golang 1.20正式发布,更好更易更强
预期中的Go 2不会有了,1.20也算是一个小gap,从中可以一窥Go未来的发展之路。对于Go来说,未来保持1.x持续演进和兼容性之外,重点就是让Go性能更优,同时保持大道至简原则,使用尽可能容易,从这两个…...
图片显示一半怎么回事?
不知道小伙伴是否遇到过,刚刚上传的一个文件夹,有一多半的图片突然就变成了无法显示该图片或者是图片显示一半,而另外一半就显示灰色蓝色粉色条状。而且还把原文件删除了。面对这种情况,有什么解决方法呢?下面让我们一起来来看看…...
102-并发编程详解(中篇)
这里续写上一章博客 Phaser新特性 : 特性1:动态调整线程个数 CyclicBarrier 所要同步的线程个数是在构造方法中指定的,之后不能更改,而 Phaser 可以在运行期间动态地 调整要同步的线程个数,Phaser 提供了下面这些方…...
jsp羽毛球场馆管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目
一、源码特点 jsp 羽毛球场馆管理系统 是一套完善的web设计系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为 TOMCAT7.0,Myeclipse8.5开发,数据库为Mysql,…...
CacheLib 原理说明
CacheLib 介绍 CacheLib 是 facebook 开源的一个用于访问和管理缓存数据的 C 库。它是一个线程安全的 API,使开发人员能够构建和自定义可扩展的并发缓存。 主要功能: 实现了针对 DRAM 和 NVM 的混合缓存,可以将从 DRAM 驱逐的缓存数据持久…...
【dapr】服务调用(Service Invokation) - app id的解析
逻辑图解 上图来自Dapr官网教程,其中Checkout是一个服务,负责生成订单号, Order Processor是另一个服务,负责处理订单。Checkout服务需要调用Order Processor的API, 让Order Processor获取到其生成的订单号并进行处理。…...
Odoo丨5步轻松实现在Odoo中打开企微会话框
Odoo丨5步轻松实现在Odoo中打开企微会话框 在Odoo中开启企微会话框 企业微信作为一个很好的企业级应用发布平台,尤其是提供的数据和接口,极大地为很多企业级应用提供便利,在日常中应用广泛! 最近在项目中就遇到一个与企业微信相…...
python读取.stl文件
目录 .1 文本方式读取 1.2 stl解析 1.3 stl创建 .2 把点转换为.stl .1 文本方式读取 代码如下 stl_path/home/pxing/codes/point_improve/data/003_cracker_box/0.stlpoints[] f open(stl_path) lines f.readlines() prefixvertex num3 for line in lines:#print (l…...
vue2.0项目第一部分
论坛项目后端管理系统服务器地址:http://172.16.11.18:9090swagger地址:http://172.16.11.18:9090/doc.html前端h5地址:http://172.16.11.18:9099/h5/#/前端管理系统地址:http://172.16.11.18:9099/admin/#/搭建项目vue create . …...
锁与原子操作
锁与原子操作 锁 以自增操作为例子: void *func(void *arg) {int *pcount (int *)arg;int i 0;//while (i < 100000) {(*pcount) ; // 并不会到达100000usleep(1);} }int main(){int i 0;for (i 0;i < THREAD_COUNT;i ) {pthread_create(&thid…...
Prometheus Pushgetway讲解与实战操作
目录 一、概述 1、Pushgateway优点: 2、Pushgateway缺点: 二、Pushgateway 架构 三、实战操作演示...
常见字符串函数的使用,你确定不进来看看吗?
👦个人主页:Weraphael ✍🏻作者简介:目前是C语言学习者 ✈️专栏:C语言航路 🐋 希望大家多多支持,咱一起进步!😁 如果文章对你有帮助的话 欢迎 评论💬 点赞&a…...
Elasticsearch:在搜索中使用衰减函数(Gauss)
在我之前的文章 “Elasticsearch:使用 function_score 及 script_score 定制搜索结果的分数” 我有讲到 Decay 函数在搜索中的使用。在那里,我有一个例子讲述在规定的时间里,分数不进行衰减。同一的函数也可以适用于地理位置的搜索。位置搜索…...
直播网站是怎么做的/东莞网络推广排名
1、什么是虚悬镜像? 构建和删除镜像时出现一些错误,导致仓库(REPOSITORY)和标签(TAG)都是NONE 2、自己写一个虚悬镜像 3、查看docker容器中存在的虚悬镜像 docker image ls -f danglingtrue4、删除docker…...
重庆市城乡建设委员会子网站/惠州seo快速排名
原文地址:微服务面试相关内容了解下~(一) 1、微服务是什么? 微服务,又是微服务架构,是一种架构风格,将应用程序构建成以业务领域为模型的小型自治服务集合。 以蜜蜂通过对齐六角形蜡细胞构建…...
织梦网站安装教程视频/长沙百度网站排名优化
在苍茫的华中地区,居住著一群机智勇敢温柔帅气善良的男人--湖南男人。 湖南男人凭借他们那俊俏的外表,温柔的内心,已经征服了大江南北的女性,越来越多的女生将拜倒 在湖南男人的牛仔裤下,我们的目标就是:冲出亚洲&…...
泸州做网站的公司有哪些/营销软文范文200字
DNS解析服务器 一、DNS概述 DNS(Domain Name Server,域名服务器)是进行域名(domain name)和与之相对应的IP地址 (IP address)转换的服务器。DNS中保存了一张域名(domain name)和与之相对应的IP地址 (IP address)的表,以解析消息的…...
学院招生网站建设方案/临沂百度推广多少钱
给你一个整数 n ,返回 和为 n 的完全平方数的最少数量 。 完全平方数 是一个整数,其值等于另一个整数的平方;换句话说,其值等于一个整数自乘的积。例如,1、4、9 和 16 都是完全平方数,而 3 和 11 不是。 …...
网站开发毕业论文开题报告/超级seo外链
问题描述 输入两个正整数m和n,求其最大公约数和最小公倍数。(如输入8 12,输出最大公约数为4,最小公倍数为24) 代码如下: #include<stdio.h> int main() {int m,n,t,b,c;scanf("%d%d",&a…...