טאו

  • תיאור :

מערך הנתונים של TAO הוא מערך נתונים גדול לזיהוי אובייקטי וידאו המורכב מ-2,907 סרטונים ברזולוציה גבוהה ו-833 קטגוריות אובייקטים. שים לב שמערך נתונים זה דורש לפחות 300 GB של שטח פנוי לאחסון.

  • תיעוד נוסף : חקור על ניירות עם קוד

  • דף הבית : https://taodataset.org/

  • קוד מקור : tfds.video.tao.Tao

  • גרסאות :

    • 1.0.0 (ברירת מחדל): שחרור ראשוני.
  • גודל הורדה : 113.96 GiB

  • הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל download_config.manual_dir (ברירת המחדל היא ~/tensorflow_datasets/downloads/manual/ ):
    יש להוריד ידנית קבצי TAO (סרטוני HVACS ו-AVA) מכיוון שנדרשת כניסה ל-MOT. אנא הורד ואת הנתונים הללו לפי ההוראות בכתובת https://motchallenge.net/tao_download.php

הורד את הנתונים האלה והעבר את קבצי ה-zip שהתקבלו אל ~/tensorflow_datasets/downloads/manual/

אם הנתונים המחייבים הורדה ידנית אינם קיימים, הם ידלג עליהם ויעשה שימוש רק בנתונים שאינם דורשים הורדה ידנית.

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'train' 500
'validation' 988
@article{Dave_2020,
   title={TAO: A Large-Scale Benchmark for Tracking Any Object},
   ISBN={9783030585587},
   ISSN={1611-3349},
   url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
   DOI={10.1007/978-3-030-58558-7_26},
   journal={Lecture Notes in Computer Science},
   publisher={Springer International Publishing},
   author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
   year={2020},
   pages={436-454}
}

tao/480_640 (תצורת ברירת המחדל)

  • תיאור תצורה : כל התמונות משתנות באופן ביליניארי ל-480 X 640

  • גודל ערכת נתונים: 482.30 GiB

  • מבנה תכונה :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מטא נתונים FeaturesDict
מטא נתונים/ערכת נתונים מוֹתֵחַ חוּט
מטא נתונים/גובה מוֹתֵחַ int32
metadata/neg_category_ids מוֹתֵחַ (אף אחד,) int32
metadata/not_exhaustive_category_ids מוֹתֵחַ (אף אחד,) int32
metadata/num_frames מוֹתֵחַ int32
metadata/video_name מוֹתֵחַ חוּט
מטא נתונים/רוחב מוֹתֵחַ int32
מסלולים סדר פעולות
רצועות/bboxes רצף (BBoxFeature) (אין, 4) לצוף32
מסלולים/קטגוריה ClassLabel int64
מסלולים/מסגרות רצף (טנזור) (אף אחד,) int32
tracks/is_crowd מוֹתֵחַ bool
tracks/scale_category מוֹתֵחַ חוּט
tracks/track_id מוֹתֵחַ int32
וִידֵאוֹ וידאו (תמונה) (ללא, 480, 640, 3) uint8

tao/רזולוציה_מלאה

  • תיאור תצורה : גרסת הרזולוציה המלאה של מערך הנתונים.

  • גודל מערך נתונים : 171.24 GiB

  • מבנה תכונה :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מטא נתונים FeaturesDict
מטא נתונים/ערכת נתונים מוֹתֵחַ חוּט
מטא נתונים/גובה מוֹתֵחַ int32
metadata/neg_category_ids מוֹתֵחַ (אף אחד,) int32
metadata/not_exhaustive_category_ids מוֹתֵחַ (אף אחד,) int32
metadata/num_frames מוֹתֵחַ int32
metadata/video_name מוֹתֵחַ חוּט
מטא נתונים/רוחב מוֹתֵחַ int32
מסלולים סדר פעולות
רצועות/bboxes רצף (BBoxFeature) (אין, 4) לצוף32
מסלולים/קטגוריה ClassLabel int64
מסלולים/מסגרות רצף (טנזור) (אף אחד,) int32
tracks/is_crowd מוֹתֵחַ bool
tracks/scale_category מוֹתֵחַ חוּט
tracks/track_id מוֹתֵחַ int32
וִידֵאוֹ וידאו (תמונה) (אין, אין, אין, 3) uint8