Görselleştirme : Verilerinizi Bilin keşfedin
Açıklama :
COCO, büyük ölçekli bir nesne algılama, segmentasyon ve altyazı oluşturma veri kümesidir. Bu sürüm, Karpathy ve Li (2015) tarafından tanımlanan alt kümelere bölünmüş COCO 2014'ten görüntüler, sınırlayıcı kutular, etiketler ve başlıklar içerir. Bu, orijinal COCO 2014 doğrulama verilerini etkili bir şekilde yeni 5000 görüntü doğrulama ve test setlerine ve kalan ~30k görüntüyü içeren bir "restval" setine böler. Tüm bölmelerde altyazı ek açıklamaları bulunur.
Yapılandırma açıklaması : Bu sürüm, 2014 sürümü için resimler, sınırlayıcı kutular ve etiketler içerir.
Ana sayfa : http://cocodataset.org/#home
Kaynak kodu :
tfds.object_detection.CocoCaptions
sürümler :
-
1.1.0
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
37.61 GiB
Veri kümesi boyutu :
18.83 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'restval' | 30.504 |
'test' | 5.000 |
'train' | 82.783 |
'val' | 5.000 |
- Özellik yapısı :
FeaturesDict({
'captions': Sequence({
'id': int64,
'text': string,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/filename': Text(shape=(), dtype=string),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'is_crowd': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=80),
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
altyazılar | Sekans | |||
altyazılar/kimlik | tensör | int64 | ||
başlıklar/metin | tensör | sicim | ||
görüntü | resim | (Yok, Yok, 3) | uint8 | |
resim/dosya adı | Metin | sicim | ||
resim/kimlik | tensör | int64 | ||
nesneler | Sekans | |||
nesneler/alan | tensör | int64 | ||
nesneler/bbox | BBoxÖzelliği | (4,) | şamandıra32 | |
nesneler/kimlik | tensör | int64 | ||
nesneler/is_crowd | tensör | bool | ||
nesneler/etiket | SınıfEtiketi | int64 |
Denetlenen anahtarlar (Bkz.
as_supervised
doc ):None
Şekil ( tfds.show_examples ):
- Örnekler ( tfds.as_dataframe ):
- Alıntı :
@article{DBLP:journals/corr/LinMBHPRDZ14,
author = {Tsung{-}Yi Lin and
Michael Maire and
Serge J. Belongie and
Lubomir D. Bourdev and
Ross B. Girshick and
James Hays and
Pietro Perona and
Deva Ramanan and
Piotr Doll{'{a} }r and
C. Lawrence Zitnick},
title = {Microsoft {COCO:} Common Objects in Context},
journal = {CoRR},
volume = {abs/1405.0312},
year = {2014},
url = {http://arxiv.org/abs/1405.0312},
archivePrefix = {arXiv},
eprint = {1405.0312},
timestamp = {Mon, 13 Aug 2018 16:48:13 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/LinMBHPRDZ14},
bibsource = {dblp computer science bibliography, https://dblp.org}
}@inproceedings{DBLP:conf/cvpr/KarpathyL15,
author = {Andrej Karpathy and
Fei{-}Fei Li},
title = {Deep visual-semantic alignments for generating image
descriptions},
booktitle = { {IEEE} Conference on Computer Vision and Pattern Recognition,
{CVPR} 2015, Boston, MA, USA, June 7-12, 2015},
pages = {3128--3137},
publisher = { {IEEE} Computer Society},
year = {2015},
url = {https://doi.org/10.1109/CVPR.2015.7298932},
doi = {10.1109/CVPR.2015.7298932},
timestamp = {Wed, 16 Oct 2019 14:14:50 +0200},
biburl = {https://dblp.org/rec/conf/cvpr/KarpathyL15.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}