מערכי נתונים של TensorFlow

TFDS מספק אוסף של מערכי נתונים מוכנים לשימוש לשימוש עם TensorFlow, Jax ומסגרות אחרות של Machine Learning.

הוא מטפל בהורדה והכנת הנתונים באופן דטרמיניסטי ובבניית tf.data.Dataset (או np.array ).

TFDS קיים בשתי חבילות:

  • pip install tensorflow-datasets : הגרסה היציבה, משוחררת כל כמה חודשים.
  • pip install tfds-nightly : יוצא כל יום, מכיל את הגירסאות האחרונות של מערכי הנתונים.

colab זה משתמש ב- tfds-nightly :

pip install -q tfds-nightly tensorflow matplotlib
import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf

import tensorflow_datasets as tfds

מצא מערכי נתונים זמינים

כל בוני הנתונים הם תת-סיווג של tfds.core.DatasetBuilder . כדי לקבל את רשימת הבונים הזמינים, השתמש ב- tfds.list_builders() או עיין בקטלוג שלנו.


טען מערך נתונים


הדרך הקלה ביותר לטעון מערך נתונים היא tfds.load . זה יהיה:

  1. הורד את הנתונים ושמור אותם כקבצי tfrecord .
  2. טען את tfrecord וצור את tf.data.Dataset .
ds = tfds.load('mnist', split='train', shuffle_files=True)
assert isinstance(ds, tf.data.Dataset)
כמה טיעונים נפוצים:

  • split= : איזה פיצול לקרוא (למשל 'train' , ['train', 'test'] , 'train[80%:]' ,...). עיין במדריך ה-API המפוצל שלנו.
  • shuffle_files= : שליטה אם לערבב את הקבצים בין כל תקופה (TFDS מאחסן מערכי נתונים גדולים במספר קבצים קטנים יותר).
  • data_dir= : מיקום שבו נשמר מערך הנתונים (ברירת המחדל היא ~/tensorflow_datasets/ )
  • with_info=True : מחזירה את tfds.core.DatasetInfo המכיל מטא נתונים של מערך הנתונים
  • download=False : השבת הורדה


tfds.load הוא עטיפה דקה סביב tfds.core.DatasetBuilder . אתה יכול לקבל את אותו פלט באמצעות tfds.core.DatasetBuilder API:

builder = tfds.builder('mnist')
# 1. Create the tfrecord files (no-op if already exists)
# 2. Load the `tf.data.Dataset`
ds = builder.as_dataset(split='train', shuffle_files=True)
<_OptionsDataset element_spec={'image': TensorSpec(shape=(28, 28, 1), dtype=tf.uint8, name=None), 'label': TensorSpec(shape=(), dtype=tf.int64, name=None)}>

tfds build CLI

אם אתה רוצה ליצור מערך נתונים ספציפי, אתה יכול להשתמש בשורת הפקודה tfds . לדוגמה:

tfds build mnist

עיין במסמך לקבלת דגלים זמינים.

חזור על מערך נתונים


כברירת מחדל, האובייקט tf.data.Dataset מכיל dict של tf.Tensor s:

ds = tfds.load('mnist', split='train')
ds = ds.take(1)  # Only take a single example

for example in ds:  # example is `{'image': tf.Tensor, 'label': tf.Tensor}`
  image = example["image"]
  label = example["label"]
  print(image.shape, label)
['image', 'label']
(28, 28, 1) tf.Tensor(4, shape=(), dtype=int64)
כדי לגלות את השמות והמבנה של מפתחות ה- dict , עיין בתיעוד של מערך הנתונים בקטלוג שלנו . לדוגמה: תיעוד מניסט .

בתור tuple ( as_supervised=True )

על ידי שימוש ב- as_supervised=True , אתה יכול לקבל tuple (features, label) במקום עבור מערכי נתונים מפוקחים.

ds = tfds.load('mnist', split='train', as_supervised=True)
ds = ds.take(1)

for image, label in ds:  # example is (image, label)
  print(image.shape, label)
(28, 28, 1) tf.Tensor(4, shape=(), dtype=int64)
כמו numpy ( tfds.as_numpy )

משתמש tfds.as_numpy כדי להמיר:

  • tf.Tensor -> np.array
  • tf.data.Dataset -> Iterator[Tree[np.array]] ( Tree יכול להיות מקונן שרירותי Dict , Tuple )
ds = tfds.load('mnist', split='train', as_supervised=True)
ds = ds.take(1)

for image, label in tfds.as_numpy(ds):
  print(type(image), type(label), label)
<class 'numpy.ndarray'> <class 'numpy.int64'> 4
כמו אצווה tf.Tensor ( batch_size=-1 )

על ידי שימוש ב- batch_size=-1 , אתה יכול לטעון את מערך הנתונים המלא באצווה אחת.

ניתן לשלב זאת עם as_supervised=True ו- tfds.as_numpy כדי לקבל את הנתונים בתור (np.array, np.array) :

image, label = tfds.as_numpy(tfds.load(

print(type(image), image.shape)
<class 'numpy.ndarray'> (10000, 28, 28, 1)

היזהר שמערך הנתונים שלך יכול להתאים לזיכרון, ושלכל הדוגמאות יש אותה צורה.

השוואת מערכי הנתונים שלך

השוואת מערך נתונים היא קריאת tfds.benchmark פשוטה על כל איטרציה (למשל tf.data.Dataset , tfds.as_numpy ,...).

ds = tfds.load('mnist', split='train')
ds = ds.batch(32).prefetch(1)

tfds.benchmark(ds, batch_size=32)
tfds.benchmark(ds, batch_size=32)  # Second epoch much faster due to auto-caching
************ Summary ************

Examples/sec (First included) 42295.82 ex/sec (total: 60000 ex, 1.42 sec)
Examples/sec (First only) 131.50 ex/sec (total: 32 ex, 0.24 sec)
Examples/sec (First excluded) 51026.08 ex/sec (total: 59968 ex, 1.18 sec)

************ Summary ************

Examples/sec (First included) 204278.25 ex/sec (total: 60000 ex, 0.29 sec)
Examples/sec (First only) 1444.72 ex/sec (total: 32 ex, 0.02 sec)
Examples/sec (First excluded) 220821.83 ex/sec (total: 59968 ex, 0.27 sec)
  • אל תשכח לנרמל את התוצאות לכל גודל אצווה עם batch_size= kwarg.
  • בסיכום, אצווה החימום הראשונה מופרדת מהאחרות כדי ללכוד זמן הגדרה נוסף של tf.data.Dataset (למשל אתחול מאגרים,...).
  • שימו לב כיצד האיטרציה השנייה מהירה הרבה יותר בגלל מטמון אוטומטי של TFDS .
  • tfds.benchmark מחזיר tfds.core.BenchmarkResult שניתן לבדוק לניתוח נוסף.

בניית צינור מקצה לקצה

כדי ללכת רחוק יותר, אתה יכול להסתכל:



ניתן להמיר אובייקטים של tf.data.Dataset ל- pandas.DataFrame עם tfds.as_dataframe להמחשה ב- Colab .

  • הוסף את tfds.core.DatasetInfo כארגומנט שני של tfds.as_dataframe כדי להמחיש תמונות, אודיו, טקסטים, סרטונים,...
  • השתמש ds.take(x) כדי להציג רק את x הדוגמאות הראשונות. pandas.DataFrame יטען את מערך הנתונים המלא בזיכרון, ויכול להיות יקר מאוד להצגה.
ds, info = tfds.load('mnist', split='train', with_info=True)

tfds.as_dataframe(ds.take(4), info)
tfds.show_examples מחזיר matplotlib.figure.Figure (רק מערכי נתונים של תמונות נתמכים כעת):

ds, info = tfds.load('mnist', split='train', with_info=True)

fig = tfds.show_examples(ds, info)
גש למטא נתונים של מערך הנתונים

כל הבונים כוללים אובייקט tfds.core.DatasetInfo המכיל את המטא נתונים של מערך הנתונים.

ניתן לגשת אליו דרך:

ds, info = tfds.load('mnist', with_info=True)
builder = tfds.builder('mnist')
info = builder.info

מידע מערך הנתונים מכיל מידע נוסף על מערך הנתונים (גרסה, ציטוט, דף בית, תיאור,...).

    The MNIST database of handwritten digits.
    download_size=11.06 MiB,
    dataset_size=21.00 MiB,
        'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
    supervised_keys=('image', 'label'),
        'test': <SplitInfo num_examples=10000, num_shards=1>,
        'train': <SplitInfo num_examples=60000, num_shards=1>,
      title={MNIST handwritten digit database},
      author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
      journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},

כולל מטא נתונים (שמות תווית, צורת תמונה,...)

גש ל- tfds.features.FeatureDict :

    'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),

מספר הכיתות, שמות התוויות:

print(info.features["label"].int2str(7))  # Human readable version (8 -> 'cat')
['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

צורות, dtypes:

{'image': (28, 28, 1), 'label': ()}
{'image': tf.uint8, 'label': tf.int64}
(28, 28, 1)
<dtype: 'uint8'>

פיצול מטא נתונים (למשל שמות מפוצלים, מספר דוגמאות,...)

גש ל- tfds.core.SplitDict :

{'test': <SplitInfo num_examples=10000, num_shards=1>, 'train': <SplitInfo num_examples=60000, num_shards=1>}

פיצולים זמינים:

['test', 'train']

קבל מידע על פיצול אישי:


זה עובד גם עם ממשק ה-API:

[FileInstruction(filename='gs://tensorflow-datasets/datasets/mnist/3.0.1/mnist-train.tfrecord-00000-of-00001', skip=9000, take=36000, num_examples=36000)]

פתרון תקלות

הורדה ידנית (אם ההורדה נכשלה)

אם ההורדה נכשלת מסיבה כלשהי (למשל במצב לא מקוון,...). אתה תמיד יכול להוריד את הנתונים באופן ידני בעצמך ולמקם אותם ב- manual_dir (ברירת המחדל היא ~/tensorflow_datasets/download/manual/ .

כדי לגלות אילו כתובות אתרים להוריד, עיין ב:

תיקון NonMatchingChecksumError

TFDS מבטיח דטרמיניזם על ידי אימות סכומי הבדיקה של כתובות אתרים שהורדו. אם NonMatchingChecksumError , עשוי להצביע על:

  • ייתכן שהאתר מושבת (למשל 503 status code ). אנא בדוק את כתובת האתר.
  • עבור כתובות אתרים של Google Drive, נסה שוב מאוחר יותר מכיוון ש-Drive לפעמים דוחה הורדות כאשר יותר מדי אנשים ניגשים לאותה כתובת URL. ראה באג
  • ייתכן שקובצי מערכי הנתונים המקוריים עודכנו. במקרה זה יש לעדכן את בונה הנתונים של TFDS. אנא פתח בעיה חדשה של Github או יחסי ציבור:
    • רשום את סכימי הבדיקה החדשים עם tfds build --register_checksums
    • בסופו של דבר עדכן את קוד יצירת מערך הנתונים.
    • עדכן את VERSION מערך הנתונים
    • עדכן את מערך הנתונים RELEASE_NOTES : מה גרם לשינוי סכומי הבדיקה? האם כמה דוגמאות השתנו?
    • ודא שעדיין ניתן לבנות את מערך הנתונים.
    • שלחו לנו יחסי ציבור


