youtube_vis

  • 설명 :

Youtube-vis는 비디오 인스턴스 세분화 데이터 세트입니다. 여기에는 2,883개의 고해상도 YouTube 비디오, 사람, 동물 및 차량과 같은 40개의 일반적인 개체를 포함하는 픽셀당 범주 레이블 세트, 4,883개의 고유 비디오 인스턴스 및 131k 고품질 수동 주석이 포함됩니다.

YouTube-VIS 데이터 세트는 2,238개의 훈련 비디오, 302개의 검증 비디오 및 343개의 테스트 비디오로 나뉩니다.

전처리 중에 파일이 제거되거나 변경되지 않았습니다.

  • 추가 문서 : 코드가 있는 논문에서 탐색

  • 홈페이지 : https://youtube-vos.org/dataset/vis/

  • 소스코드 : tfds.video.youtube_vis.YoutubeVis

  • 버전 :

    • 1.0.0 (기본값): 최초 릴리스.
  • 다운로드 크기 : Unknown size

  • 수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로 download_config.manual_dir 해야 합니다(기본값은 ~/tensorflow_datasets/downloads/manual/ ).
    youtube-vis 웹사이트에서 데이터 세트의 2019 버전에 대한 모든 파일(test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json)을 다운로드하고 ~/tensorflow_datasets/로 이동하십시오. 다운로드/수동/.

데이터 세트 랜딩 페이지는 https://youtube-vos.org/dataset/vis/에 있으며, 그러면 2019 버전을 다운로드할 수 있는 https://competitions.codalab.org 페이지로 리디렉션됩니다. 데이터 세트의. 데이터를 다운로드하려면 codalab에 계정을 만들어야 합니다. 이 글을 작성할 때 codalab에 액세스할 때 "연결이 안전하지 않음" 경고를 우회해야 합니다.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full(기본 구성)

  • 구성 설명 : 레이블이 없는 프레임을 포함하여 모든 프레임이 포함된 데이터 세트의 전체 해상도 버전입니다.

  • 데이터세트 크기 : 33.31 GiB

  • 분할 :

나뉘다
'test' 343
'train' 2,238
'validation' 302
  • 기능 구조 :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
메타데이터 풍모Dict
메타데이터/높이 텐서 int32
메타데이터/num_frames 텐서 int32
메타데이터/동영상_이름 텐서
메타데이터/너비 텐서 int32
트랙 순서
트랙/지역 시퀀스(텐서) (없음,) float32
트랙/bbox 시퀀스(BBoxFeature) (없음, 4) float32
트랙/카테고리 클래스 레이블 int64
트랙/프레임 시퀀스(텐서) (없음,) int32
트랙/is_crowd 텐서 부울
트랙/분할 동영상(이미지) (없음, 없음, 없음, 1) uint8
동영상 동영상(이미지) (없음, 없음, 없음, 3) uint8

youtube_vis/480_640_full

  • 구성 설명 : 모든 이미지는 모든 프레임이 포함된 480 X 640으로 이중 선형 크기로 조정됩니다.

  • 데이터세트 크기 : 130.02 GiB

  • 분할 :

나뉘다
'test' 343
'train' 2,238
'validation' 302
  • 기능 구조 :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
메타데이터 풍모Dict
메타데이터/높이 텐서 int32
메타데이터/num_frames 텐서 int32
메타데이터/동영상_이름 텐서
메타데이터/너비 텐서 int32
트랙 순서
트랙/지역 시퀀스(텐서) (없음,) float32
트랙/bbox 시퀀스(BBoxFeature) (없음, 4) float32
트랙/카테고리 클래스 레이블 int64
트랙/프레임 시퀀스(텐서) (없음,) int32
트랙/is_crowd 텐서 부울
트랙/분할 동영상(이미지) (없음, 480, 640, 1) uint8
동영상 동영상(이미지) (없음, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels

  • 구성 설명 : 모든 이미지는 레이블이 포함된 프레임만 포함하여 480 X 640으로 이중 선형으로 크기가 조정됩니다.

  • 데이터세트 크기 : 26.27 GiB

  • 분할 :

나뉘다
'test' 343
'train' 2,238
'validation' 302
  • 기능 구조 :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
메타데이터 풍모Dict
메타데이터/높이 텐서 int32
메타데이터/num_frames 텐서 int32
메타데이터/동영상_이름 텐서
메타데이터/너비 텐서 int32
트랙 순서
트랙/지역 시퀀스(텐서) (없음,) float32
트랙/bbox 시퀀스(BBoxFeature) (없음, 4) float32
트랙/카테고리 클래스 레이블 int64
트랙/프레임 시퀀스(텐서) (없음,) int32
트랙/is_crowd 텐서 부울
트랙/분할 동영상(이미지) (없음, 480, 640, 1) uint8
동영상 동영상(이미지) (없음, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels

  • 구성 설명 : 기본 해상도에 라벨이 포함된 이미지만 포함됩니다.

  • 데이터세트 크기 : 6.91 GiB

  • 분할 :

나뉘다
'test' 343
'train' 2,238
'validation' 302
  • 기능 구조 :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
메타데이터 풍모Dict
메타데이터/높이 텐서 int32
메타데이터/num_frames 텐서 int32
메타데이터/동영상_이름 텐서
메타데이터/너비 텐서 int32
트랙 순서
트랙/지역 시퀀스(텐서) (없음,) float32
트랙/bbox 시퀀스(BBoxFeature) (없음, 4) float32
트랙/카테고리 클래스 레이블 int64
트랙/프레임 시퀀스(텐서) (없음,) int32
트랙/is_crowd 텐서 부울
트랙/분할 동영상(이미지) (없음, 없음, 없음, 1) uint8
동영상 동영상(이미지) (없음, 없음, 없음, 3) uint8

youtube_vis/full_train_split

  • 구성 설명 : 레이블이 없는 프레임을 포함하여 모든 프레임이 포함된 데이터 세트의 전체 해상도 버전입니다. val 및 테스트 분할은 교육 데이터에서 제조됩니다.

  • 데이터세트 크기 : 26.09 GiB

  • 분할 :

나뉘다
'test' 200
'train' 1,838
'validation' 200
  • 기능 구조 :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
메타데이터 풍모Dict
메타데이터/높이 텐서 int32
메타데이터/num_frames 텐서 int32
메타데이터/동영상_이름 텐서
메타데이터/너비 텐서 int32
트랙 순서
트랙/지역 시퀀스(텐서) (없음,) float32
트랙/bbox 시퀀스(BBoxFeature) (없음, 4) float32
트랙/카테고리 클래스 레이블 int64
트랙/프레임 시퀀스(텐서) (없음,) int32
트랙/is_crowd 텐서 부울
트랙/분할 동영상(이미지) (없음, 없음, 없음, 1) uint8
동영상 동영상(이미지) (없음, 없음, 없음, 3) uint8

youtube_vis/480_640_full_train_split

  • 구성 설명 : 모든 이미지는 모든 프레임이 포함된 480 X 640으로 이중 선형 크기로 조정됩니다. val 및 테스트 분할은 교육 데이터에서 제조됩니다.

  • 데이터세트 크기 : 101.57 GiB

  • 분할 :

나뉘다
'test' 200
'train' 1,838
'validation' 200
  • 기능 구조 :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
메타데이터 풍모Dict
메타데이터/높이 텐서 int32
메타데이터/num_frames 텐서 int32
메타데이터/동영상_이름 텐서
메타데이터/너비 텐서 int32
트랙 순서
트랙/지역 시퀀스(텐서) (없음,) float32
트랙/bbox 시퀀스(BBoxFeature) (없음, 4) float32
트랙/카테고리 클래스 레이블 int64
트랙/프레임 시퀀스(텐서) (없음,) int32
트랙/is_crowd 텐서 부울
트랙/분할 동영상(이미지) (없음, 480, 640, 1) uint8
동영상 동영상(이미지) (없음, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels_train_split

  • 구성 설명 : 모든 이미지는 레이블이 포함된 프레임만 포함하여 480 X 640으로 이중 선형으로 크기가 조정됩니다. val 및 테스트 분할은 교육 데이터에서 제조됩니다.

  • 데이터세트 크기 : 20.55 GiB

  • 분할 :

나뉘다
'test' 200
'train' 1,838
'validation' 200
  • 기능 구조 :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
메타데이터 풍모Dict
메타데이터/높이 텐서 int32
메타데이터/num_frames 텐서 int32
메타데이터/동영상_이름 텐서
메타데이터/너비 텐서 int32
트랙 순서
트랙/지역 시퀀스(텐서) (없음,) float32
트랙/bbox 시퀀스(BBoxFeature) (없음, 4) float32
트랙/카테고리 클래스 레이블 int64
트랙/프레임 시퀀스(텐서) (없음,) int32
트랙/is_crowd 텐서 부울
트랙/분할 동영상(이미지) (없음, 480, 640, 1) uint8
동영상 동영상(이미지) (없음, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels_train_split

  • 구성 설명 : 기본 해상도에 라벨이 포함된 이미지만 포함됩니다. val 및 테스트 분할은 교육 데이터에서 제조됩니다.

  • 데이터세트 크기 : 5.46 GiB

  • 분할 :

나뉘다
'test' 200
'train' 1,838
'validation' 200
  • 기능 구조 :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
메타데이터 풍모Dict
메타데이터/높이 텐서 int32
메타데이터/num_frames 텐서 int32
메타데이터/동영상_이름 텐서
메타데이터/너비 텐서 int32
트랙 순서
트랙/지역 시퀀스(텐서) (없음,) float32
트랙/bbox 시퀀스(BBoxFeature) (없음, 4) float32
트랙/카테고리 클래스 레이블 int64
트랙/프레임 시퀀스(텐서) (없음,) int32
트랙/is_crowd 텐서 부울
트랙/분할 동영상(이미지) (없음, 없음, 없음, 1) uint8
동영상 동영상(이미지) (없음, 없음, 없음, 3) uint8