Questa pagina è stata tradotta dall'API Cloud Translation.
Switch to English

tfds.load

Visualizza sorgente su GitHub

Carica il set di dati denominato in un tf.data.Dataset .

Utilizzato nei taccuini

Utilizzato nella guida Utilizzato nei tutorial

Se split=None (impostazione predefinita), restituisce tutte le suddivisioni per il set di dati. In caso contrario, restituisce la divisione specificata.

load è un metodo pratico che recupera tfds.core.DatasetBuilder base al nome della stringa, facoltativamente chiama DatasetBuilder.download_and_prepare (se download=True ) e quindi chiama DatasetBuilder.as_dataset . Questo è più o meno equivalente a:

builder = tfds.builder(name, data_dir=data_dir, **builder_kwargs)
if download:
  builder.download_and_prepare(**download_and_prepare_kwargs)
ds = builder.as_dataset(
    split=split, as_supervised=as_supervised, **as_dataset_kwargs)
if with_info:
  return ds, builder.info
return ds

Se desideri array NumPy invece di tf.data.Dataset tf.Tensor s, puoi passare il valore restituito a tfds.as_numpy .

I chiamanti devono passare argomenti come argomenti di parole chiave.

name str , il nome registrato di DatasetBuilder (la versione con case a serpente del nome della classe). Può essere "dataset_name" o "dataset_name/config_name" per i dataset con BuilderConfig s. Per comodità, questa stringa può contenere argomenti di parole chiave separate da virgole per il generatore. Ad esempio "foo_bar/a=True,b=3" userebbe il set di dati FooBar passando gli argomenti della parola chiave a=True b=3 (per i costruttori con configurazioni, sarebbe "foo_bar/zoo/a=True,b=3" per utilizzare la configurazione "zoo" e passare agli argomenti della parola chiave del builder a=True b=3 ).
split Quale suddivisione dei dati caricare (ad es. 'train' , 'test' ['train', 'test'] , 'train[80%:]' , ...). Consulta la nostra guida all'API divisa . Se None , restituirà tutte le suddivisioni in un Dict[Split, tf.data.Dataset]
data_dir str , directory per leggere / scrivere dati. Il valore predefinito è il valore della variabile d'ambiente TFDS_DATA_DIR, se impostata, altrimenti ritorna a "~ / tensorflow_datasets".
batch_size int , se impostato, aggiunge una dimensione batch agli esempi. Nota che le caratteristiche di lunghezza variabile avranno 0 riempito. Se batch_size=-1 , restituirà il set di dati completo come tf.Tensor s.
shuffle_files bool , se mescolare i file di input. Il valore predefinito è False .
download bool (opzionale), se chiamare tfds.core.DatasetBuilder.download_and_prepare prima di chiamare tf.DatasetBuilder.as_dataset . Se False , i dati dovrebbero essere in data_dir . Se True e i dati sono già in data_dir , download_and_prepare è un no-op.
as_supervised bool , se True , il tf.data.Dataset restituito avrà una struttura a 2 tuple (input, label) secondo builder.info.supervised_keys . Se False , l'impostazione predefinita, il tf.data.Dataset restituito avrà un dizionario con tutte le funzionalità.
decoders Dict annidato di oggetti Decoder che permettono di personalizzare la decodifica. La struttura deve corrispondere alla struttura dell'elemento, ma devono essere presenti solo i tasti funzione personalizzati. Consulta la guida per maggiori informazioni.
read_config tfds.ReadConfig , Opzioni aggiuntive per configurare la pipeline di input (ad esempio seed, num parallel reads, ...).
with_info bool , se True, tfds.load restituirà la tupla (tf.data.Dataset, tfds.core.DatasetInfo) contenente le informazioni associate al builder.
builder_kwargs dict (opzionale), argomenti di parole chiave da passare al costruttore tfds.core.DatasetBuilder . data_dir verrà passato per impostazione predefinita.
download_and_prepare_kwargs dict (opzionale) argomenti della parola chiave passati a tfds.core.DatasetBuilder.download_and_prepare se download=True . Permette di controllare dove scaricare ed estrarre i dati memorizzati nella cache. Se non impostato, cache_dir e manual_dir verranno automaticamente dedotti da data_dir.
as_dataset_kwargs dict (opzionale), argomenti delle parole chiave passati a tfds.core.DatasetBuilder.as_dataset .
try_gcs bool , se True, tfds.load vedrà se il set di dati esiste nel bucket GCS pubblico prima di crearlo localmente.

ds tf.data.Dataset , il set di dati richiesto o, se split è Nessuno, un dict<key: tfds.Split, value: tfds.data.Dataset> . Se batch_size=-1 , questi saranno set di dati completi come tf.Tensor s.
ds_info tfds.core.DatasetInfo , se with_info è True, tfds.load restituirà una tupla (ds, ds_info) contenente informazioni sul set di dati (versione, caratteristiche, suddivisioni, num_examples, ...). Si noti che l'oggetto ds_info documenta l'intero set di dati, indipendentemente dalla split richiesta. Le informazioni specifiche della ds_info.splits sono disponibili in ds_info.splits .