ADE20K 场景解析数据集
场景解析,就是通过一张照片,尽量多的拆分出全部各类事物;
MIT 通过官网发布了一款名为 ADE20K 的数据集,可用于场景感知、解析、分割、多物体识别和语义理解。整个数据集(包含所有的图像和分割在内)的大小为 3.8Gb。MIT 从下载、描述、浏览、评估等方面对该数据做了扼要介绍。
数据集下载地址:http://groups.csail.mit.edu/vision/datasets/ADE20K/
图片和注释:
每个文件夹包含按场景类别(与“位置数据库”相同的场景类别)分隔的图像。对于每个图像,对象和零件分割均存储在两个不同的png文件中。所有对象和零件实例都进行了少量注释。
对于每个图像,都有以下文件:
* .jpg:RGB图像。
* _seg.png:对象分割掩码。该图像包含有关对象类分割掩码的信息,并且还将每个类分成实例。通道R和G对对象类掩码进行编码。通道B对实例对象掩码进行编码。函数loadAde20K.m提取两个掩码。
* _seg_parts_N.png:零件分割掩码,其中N是表示零件层次结构中级别的数字(1,2,3,...)。零件被组织成一棵树,对象由零件组成,零件也可以由零件组成,零件的一部分也可以有零件。级别N表示零件树中的深度。级别N = 1对应于对象的各个部分。所有零件分割均与对象分割蒙版中的编码相同,类别在RG通道中编码,而实例在B通道中编码。使用函数loadAde20K.m提取零件分割蒙版并分离同一类的实例。
* _。txt:描述每个图像内容的文本文件(描述对象和零件)。该信息对于其他文件是多余的。但除此之外,还包含有关对象属性的信息。函数loadAde20K.m也会解析此文件的内容。文本文件中的每一行包含:第1列=实例号,第2列=部件级别(对于对象为0),第3列=被遮挡的(对于true为1),第4列=类名(使用wordnet解析),第5列=原始原始名称(可能提供更详细的分类),第6列=逗号分隔的属性列表。
以下示例分为两个部分。第一部分显示对象蒙版。第二个细分对应于对象部分(主体部分,杯子部分,桌子部分等)。第三部分显示了头部的一部分(眼睛,嘴巴,鼻子等):
Matlab文件:index_ade20k_2015.mat