文章目录


1 经典的数据集介绍

1.1 ImageNet

​ ImageNet 是一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库。是美国斯坦福的计算机科学家李飞飞模拟人类的识别系统建立的。能够从图片识别物体。目前已经包含 14197122 张图像,是已知的最大的图像数据库。每年的 ImageNet 大赛更是魂萦梦牵着国内外各个名校和大型 IT 公司以及网络巨头的心。图像如下图所示,需要注册 ImageNet 帐号才可以下载,下载链接为 http://www.image-net.org/

img

1.2 PASCAL VOC

​ PASCALVOC 数据集是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。图像如下图所示,包含 VOC2007(430M),VOC2012(1.9G)两个下载版本。下载链接为 http://pjreddie.com/projects/pascal-voc-dataset-mirror/

img

1.3 Labelme

​ Labelme 是斯坦福一个学生的母亲利用休息时间帮儿子做的标注,后来便发展为一个数据集。该数据集的主要特点包括

(1)专门为物体分类识别设计,而非仅仅是实例识别

(2)专门为学习嵌入在一个场景中的对象而设计

(3)高质量的像素级别标注,包括多边形框(polygons)和背景标注(segmentation masks)

(4)物体类别多样性大,每种物体的差异性,多样性也大。

(5)所有图像都是自己通过相机拍摄,而非 copy

(6)公开的,免费的

图像如下图所示,需要通过 matlab 来下载,一种奇特的下载方式,下载链接为 http://labelme2.csail.mit.edu/Release3.0/index.php

img

1.4 COCO

​ COCO 是一种新的图像识别,分割和加字幕标注的数据集。主要由 Tsung-Yi Lin(Cornell Tech),Genevieve Patterson (Brown),MatteoRuggero Ronchi (Caltech),Yin Cui (Cornell Tech),Michael Maire (TTI Chicago),Serge Belongie (Cornell Tech),Lubomir Bourdev (UC Berkeley),Ross Girshick (Facebook AI), James Hays (Georgia Tech),PietroPerona (Caltech),Deva Ramanan (CMU),Larry Zitnick (Facebook AI), Piotr Dollár (Facebook AI)等人收集而成。其主要特征如下

(1)目标分割

(2)通过上下文进行识别

(3)每个图像包含多个目标对象

(4)超过 300000 个图像

(5)超过 2000000 个实例

(6)80 种对象

(7)每个图像包含 5 个字幕

(8)包含 100000 个人的关键点

图像如下图所示,支持 Matlab 和 Python 两种下载方式,下载链接为 http://mscoco.org/

img

1.5 SUN

​ SUN 数据集包含 131067 个图像,由 908 个场景类别和 4479 个物体类别组成,其中背景标注的物体有 313884 个。图像如下图所示,下载链接为 http://groups.csail.mit.edu/vision/SUN/

img

1.6 Caltech

​ Caltech 是加州理工学院的图像数据库,包含 Caltech101 和 Caltech256 两个数据集。该数据集是由 Fei-FeiLi, Marco Andreetto, Marc 'Aurelio Ranzato 在 2003 年 9 月收集而成的。Caltech101 包含 101 种类别的物体,每种类别大约 40 到 800 个图像,大部分的类别有大约 50 个图像。Caltech256 包含 256 种类别的物体,大约 30607 张图像。图像如下图所示,下载链接为 http://www.vision.caltech.edu/Image_Datasets/Caltech101/

img

1.7 Corel5k

​ 这是 Corel5K 图像集,共包含科雷尔(Corel)公司收集整理的 5000 幅图片,故名:Corel5K,可以用于科学图像实验:分类、检索等。Corel5k 数据集是图像实验的事实标准数据集。请勿用于商业用途。私底下学习交流使用。Corel 图像库涵盖多个主题,由若干个 CD 组成,每个 CD 包含 100 张大小相等的图像,可以转换成多种格式。每张 CD 代表一个语义主题,例如有公共汽车、恐龙、海滩等。Corel5k 自从被提出用于图像标注实验后,已经成为图像实验的标准数据集,被广泛应用于标注算法性能的比较。Corel5k 由 50 张 CD 组成,包含 50 个语义主题。

Corel5k 图像库通常被分成三个部分:4000 张图像作为训练集,500 张图像作为验证集用来估计模型参数,其余 500 张作为测试集评价算法性能。使用验证集寻找到最优模型参数后 4000 张训练集和 500 张验证集混合起来组成新的训练集。

该图像库中的每张图片被标注 1~5 个标注词,训练集中总共有 374 个标注词,在测试集中总共使用了 263 个标注词。图像如下图所示,很遗憾本人也未找到官方下载路径,于是 github 上传了一份,下载链接为 https://github.com/watersink/Corel5K

img

1.8 CIFAR(Canada Institude For Advanced Research)

​ CIFAR 是由加拿大先进技术研究院的 AlexKrizhevsky, Vinod Nair 和 Geoffrey Hinton 收集而成的 80 百万小图片数据集。包含 CIFAR-10 和 CIFAR-100 两个数据集。 Cifar-10 由 60000 张 32*32 的 RGB 彩色图片构成,共 10 个分类。50000 张训练,10000 张测试(交叉验证)。这个数据集最大的特点在于将识别迁移到了普适物体,而且应用于多分类。CIFAR-100 由 60000 张图像构成,包含 100 个类别,每个类别 600 张图像,其中 500 张用于训练,100 张用于测试。其中这 100 个类别又组成了 20 个大的类别,每个图像包含小类别和大类别两个标签。官网提供了 Matlab,C,Python 三个版本的数据格式。图像如下图所示,下载链接为 http://www.cs.toronto.edu/~kriz/cifar.html

img

2 人脸数据库

2.1 AFLW(Annotated Facial Landmarks in the Wild)

​ AFLW 人脸数据库是一个包括多姿态、多视角的大规模人脸数据库,而且每个人脸都被标注了 21 个特征点。此数据库信息量非常大,包括了各种姿态、表情、光照、种族等因素影响的图片。AFLW 人脸数据库大约包括 25000 万已手工标注的人脸图片,其中 59% 为女性,41% 为男性,大部分的图片都是彩色,只有少部分是灰色图片。该数据库非常适合用于人脸识别、人脸检测、人脸对齐等方面的研究,具有很高的研究价值。图像如下图所示,需要申请帐号才可以下载,下载链接为 http://lrs.icg.tugraz.at/research/aflw/

img

2.2 LFW(Labeled Faces in the Wild)

​ LFW 是一个用于研究无约束的人脸识别的数据库。该数据集包含了从网络收集的 13000 张人脸图像,每张图像都以被拍摄的人名命名。其中,有 1680 个人有两个或两个以上不同的照片。这些数据集唯一的限制就是它们可以被经典的 Viola-Jones 检测器检测到(a hummor)。图像如下图所示,下载链接为 http://vis-www.cs.umass.edu/lfw/index.html#download

img

2.3 AFW(Annotated Faces in the Wild)

​ AFW 数据集是使用 Flickr(雅虎旗下图片分享网站)图像建立的人脸图像库,包含 205 个图像,其中有 473 个标记的人脸。对于每一个人脸都包含一个长方形边界框,6 个地标和相关的姿势角度。数据库虽然不大,额外的好处是作者给出了其 2012 CVPR 的论文和程序以及训练好的模型。图像如下图所示,下载链接为 http://www.ics.uci.edu/~xzhu/face/

img

2.4 FDDB(Face Detection Data Set and Benchmark)

​ FDDB 数据集主要用于约束人脸检测研究,该数据集选取野外环境中拍摄的 2845 个图像,从中选择 5171 个人脸图像。是一个被广泛使用的权威的人脸检测平台。图像如下图所示,下载链接为 http://vis-www.cs.umass.edu/fddb/

img

2.5 WIDER FACE

​ WIDER FACE 是香港中文大学的一个提供更广泛人脸数据的人脸检测基准数据集,由 YangShuo, Luo Ping ,Loy ,Chen Change ,Tang Xiaoou 收集。它包含 32203 个图像和 393703 个人脸图像,在尺度,姿势,闭塞,表达,装扮,关照等方面表现出了大的变化。WIDER FACE 是基于 61 个事件类别组织的,对于每一个事件类别,选取其中的 40% 作为训练集,10% 用于交叉验证(cross validation),50% 作为测试集。和 PASCAL VOC 数据集一样,该数据集也采用相同的指标。和 MALF 和 Caltech 数据集一样,对于测试图像并没有提供相应的背景边界框。图像如下图所示,下载链接为 http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/

img

2.6 CMU-MIT

​ CMU-MIT 是由卡内基梅隆大学和麻省理工学院一起收集的数据集,所有图片都是黑白的 gif 格式。里面包含 511 个闭合的人脸图像,其中 130 个是正面的人脸图像。图像如下图所示,没有找到官方链接,Github 下载链接为 https://github.com/watersink/CMU-MIT

img

2.7 GENKI

​ GENKI 数据集是由加利福尼亚大学的机器概念实验室收集。该数据集包含 GENKI-R2009a,GENKI-4K,GENKI-SZSL 三个部分。GENKI-R2009a 包含 11159 个图像,GENKI-4K 包含 4000 个图像,分为 “笑” 和 “不笑” 两种,每个图片的人脸的尺度大小,姿势,光照变化,头的转动等都不一样,专门用于做笑脸识别。GENKI-SZSL 包含 3500 个图像,这些图像包括广泛的背景,光照条件,地理位置,个人身份和种族等。图像如下图所示,下载链接为 http://mplab.ucsd.edu/,如果进不去可以,同样可以去下面的 github 下载,链接 https://github.com/watersink/GENKI

img

2.8 IJB-A (IARPA JanusBenchmark A)

​ IJB-A 是一个用于人脸检测和识别的数据库,包含 24327 个图像和 49759 个人脸。图像如下图所示,需要邮箱申请相应帐号才可以下载,下载链接为 http://www.nist.gov/itl/iad/ig/ijba_request.cfm

img

2.9 MALF (Multi-Attribute Labelled Faces)

​ MALF 是为了细粒度的评估野外环境中人脸检测模型而设计的数据库。数据主要来源于 Internet,包含 5250 个图像,11931 个人脸。每一幅图像包含正方形边界框,俯仰、蜷缩等姿势等。该数据集忽略了小于 20*20 的人脸,大约 838 个人脸,占该数据集的 7%。同时,该数据集还提供了性别,是否带眼镜,是否遮挡,是否是夸张的表情等信息。图像如下图所示,需要申请才可以得到官方的下载链接,链接为 http://www.cbsr.ia.ac.cn/faceevaluation/

img

2.10 MegaFace

​ MegaFace 资料集包含一百万张图片,代表 690000 个独特的人。所有数据都是华盛顿大学从 Flickr(雅虎旗下图片分享网站)组织收集的。这是第一个在一百万规模级别的面部识别算法测试基准。 现有脸部识别系统仍难以准确识别超过百万的数据量。为了比较现有公开脸部识别算法的准确度,华盛顿大学在去年年底开展了一个名为 “MegaFace Challenge” 的公开竞赛。这个项目旨在研究当数据库规模提升数个量级时,现有的脸部识别系统能否维持可靠的准确率。图像如下图所示,需要邮箱申请才可以下载,下载链接为 http://megaface.cs.washington.edu/dataset/download.html

img

2.11 300W

​ 300W 数据集是由 AFLW,AFW,Helen,IBUG,LFPW,LFW 等数据集组成的数据库。图像如下图所示,需要邮箱申请才可以下载,下载链接为 http://ibug.doc.ic.ac.uk/resources/300-W/

img

2.12 IMM Data Sets

​ IMM 人脸数据库包括了 240 张人脸图片和 240 个 asf 格式文件(可以用 UltraEdit 打开,记录了 58 个点的地标),共 40 个人(7 女 33 男),每人 6 张人脸图片,每张人脸图片被标记了 58 个特征点。所有人都未戴眼镜,图像如下图所示,下载链接为 http://www2.imm.dtu.dk/~aam/datasets/datasets.html

img

2.13 MUCT Data Sets

​ MUCT 人脸数据库由 3755 个人脸图像组成,每个人脸图像有 76 个点的地标(landmark),图片为 jpg 格式,地标文件包含 csv,rda,shape 三种格式。该图像库在种族、关照、年龄等方面表现出更大的多样性。具体图像如下图所示,下载链接为 http://www.milbo.org/muct/

img

2.14 ORL (AT&T Dataset)

​ ORL 数据集是剑桥大学 AT&T 实验室收集的一个人脸数据集。包含了从 1992.4 到 1994.4 该实验室的成员。该数据集中图像分为 40 个不同的主题,每个主题包含 10 幅图像。对于其中的某些主题,图像是在不同的时间拍摄的。在关照,面部表情(张开眼睛,闭合眼睛,笑,非笑),面部细节(眼镜)等方面都变现出了差异性。所有图像都是以黑色均匀背景,并且从正面向上方向拍摄。

其中图片都是 PGM 格式,图像大小为 92*102,包含 256 个灰色通道。具体图像如下图所示,下载链接为 http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html

img

3 行人检测数据库

3.1 INRIA Person Dataset

​ Inria 数据集是最常使用的行人检测数据集。其中正样本(行人)为 png 格式,负样本为 jpg 格式。里面的图片分为只有车,只有人,有车有人,无车无人四个类别。图片像素为 70134,96160,64*128 等。具体图像如下图所示,下载链接为 http://pascal.inrialpes.fr/data/human/

img

3.2 CaltechPedestrian Detection Benchmark

​ 加州理工学院的步行数据集包含大约包含 10 个小时 640x480 30Hz 的视频。其主要是在一个在行驶在乡村街道的小车上拍摄。视频大约 250000 帧(在 137 个约分钟的长段),共有 350000 个边界框和 2300 个独特的行人进行了注释。注释包括包围盒和详细的闭塞标签之间的时间对应关系。更多信息可在其 PAMI 2012 CVPR 2009 标杆的论文获得。具体图像如下图所示,下载链接为 http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

img

3.3 MIT cbcl (center for biological and computational learning)Pedestrian Data

​ 该数据集主要包含 2 个部分,一部分为 128*64 的包含 924 个图片的 ppm 格式的图片,另一部分为从打图中分别切割而出的小图,主要包含胳膊,脑袋,脚,腿,头肩,身体等。具体图像如下图所示,下载链接为 http://cbcl.mit.edu/software-datasets/PedestrianData.html,需要翻墙才可以。

img

4 年龄,性别数据库

4.1 Adience

​ 该数据集来源为 Flickr 相册,由用户使用 iPhone5 或者其它智能手机设备拍摄,同时具有相应的公众许可。该数据集主要用于进行年龄和性别的未经过滤的面孔估计。同时,里面还进行了相应的 landmark 的标注。是做性别年龄估计和人脸对齐的一个数据集。图片包含 2284 个类别和 26580 张图片。具体图像如下图所示,下载链接为 http://www.openu.ac.il/home/hassner/Adience/data.html#agegender

img

5 车辆数据库

5.1 KITTI(Karlsruhe Institute ofTechnology and Toyota Technological Institute)

​ KITTI 包含 7481 个训练图片和 7518 个测试图片。所有图片都是真彩色 png 格式。该数据集中标注了车辆的类型,是否截断,遮挡情况,角度值,2 维和 3 维 box 框,位置,旋转角度,分数等重要的信息,绝对是做车载导航的不可多得的数据集。具体图像如下图所示,下载链接为 http://www.cvlibs.net/datasets/kitti/

img

6 字符数据库

6.1 MNIST(Mixed National Instituteof Standards and Technology)

​ MNIST 是一个大型的手写数字数据库,广泛用于机器学习领域的训练和测试,由纽约大学的 Yann LeCun 整理。MNIST 包含 60000 个训练集,10000 个测试集,每张图都进行了尺度归一化和数字居中处理,固定尺寸大小为 28*28。具体图像如下图所示,下载链接为 http://yann.lecun.com/exdb/mnist/

img

× 请我吃糖~
打赏二维码