ADE20K 场景解析数据集

作者: 发布时间:1970-01-01 08:00

场景解析,就是通过一张照片,尽量多的拆分出全部各类事物;

MIT 通过官网发布了一款名为 ADE20K 的数据集,可用于场景感知、解析、分割、多物体识别和语义理解。整个数据集(包含所有的图像和分割在内)的大小为 3.8Gb。MIT 从下载、描述、浏览、评估等方面对该数据做了扼要介绍。

数据集下载地址:http://groups.csail.mit.edu/vision/datasets/ADE20K/


图片和注释:
每个文件夹包含按场景类别(与“位置数据库”相同的场景类别)分隔的图像。对于每个图像,对象和零件分割均存储在两个不同的png文件中。所有对象和零件实例都进行了少量注释。
对于每个图像,都有以下文件:
* .jpg:RGB图像。
* _seg.png:对象分割掩码。该图像包含有关对象类分割掩码的信息,并且还将每个类分成实例。通道R和G对对象类掩码进行编码。通道B对实例对象掩码进行编码。函数loadAde20K.m提取两个掩码。
* _seg_parts_N.png:零件分割掩码,其中N是表示零件层次结构中级别的数字(1,2,3,...)。零件被组织成一棵树,对象由零件组成,零件也可以由零件组成,零件的一部分也可以有零件。级别N表示零件树中的深度。级别N = 1对应于对象的各个部分。所有零件分割均与对象分割蒙版中的编码相同,类别在RG通道中编码,而实例在B通道中编码。使用函数loadAde20K.m提取零件分割蒙版并分离同一类的实例。
* _。txt:描述每个图像内容的文本文件(描述对象和零件)。该信息对于其他文件是多余的。但除此之外,还包含有关对象属性的信息。函数loadAde20K.m也会解析此文件的内容。文本文件中的每一行包含:第1列=实例号,第2列=部件级别(对于对象为0),第3列=被遮挡的(对于true为1),第4列=类名(使用wordnet解析),第5列=原始原始名称(可能提供更详细的分类),第6列=逗号分隔的属性列表。
以下示例分为两个部分。第一部分显示对象蒙版。第二个细分对应于对象部分(主体部分,杯子部分,桌子部分等)。第三部分显示了头部的一部分(眼睛,嘴巴,鼻子等):

    

Matlab文件:index_ade20k_2015.mat

  • filename:长度为N = 22210的单元格数组,带有图像文件名。
  • folder:具有图像文件夹名称的长度为N的单元格数组。
  • scene:长度N的单元格数组,为每个图像提供场景名称(与Places数据库相同的类)。
  • objectnames:具有对象类名称的长度为C的单元格数组。
  • wordnet_found:长度为C的数组。它指示是否在Wordnet中找到对象名。
  • wordnet_hypernym:长度为C的单元格数组。每个对象名称的WordNet上位字母
  • wordnet_gloss:长度为C的单元格数组。WordNet定义。
  • objectcounts:长度为C的数组,其中包含每个对象类的实例数。
  • objectPresence:大小为[length C,N]的数组,每个图像的对象计数。如果在图像i中存在n个对象类c的实例,则objectPresence(c,i)= n。
  • objectIsPart:大小为[length C,N]的数组,计算每个图像中一个对象成为一部分的次数。如果在图像i中,对象类c是另一个对象的一部分m次,则objectIsPart(c,i)= m。对于对象,objectIsPart(c,i)= 0,对于零件,我们将找到:objectIsPart(c,i)≈objectPresence(c,i)。
  • 比例类IsPart:长度为C的数组,其中类c作为一部分的时间比例。如果比例ClassIsPart(c)= 0,则表示这是一个主要对象(例如,汽车,椅子等)。有关此变量的用途的讨论,请参见下面。
  • 标签:
    Copyright © 2020 万物律动 旗下 AI算法狮 京ICP备20010037号-1
    本站内容来源于网络开放内容的收集整理,并且仅供学习交流使用;
    如有侵权,请联系删除相关内容;