此页面由 Cloud Translation API 翻译。
Switch to English

tfds.load

在GitHub上查看源代码

将命名数据集加载到tf.data.Dataset

用于笔记本

在指南中使用在教程中使用

如果split=None (默认值),则返回数据集的所有拆分。否则,返回指定的拆分。

load是一种方便的方法, tfds.core.DatasetBuilder按字符串名称获取tfds.core.DatasetBuilder ,可以选择调用DatasetBuilder.download_and_prepare (如果download=True ),然后调用DatasetBuilder.as_dataset 。这大致相当于:

 builder = tfds.builder(name, data_dir=data_dir, **builder_kwargs)
if download:
  builder.download_and_prepare(**download_and_prepare_kwargs)
ds = builder.as_dataset(
    split=split, as_supervised=as_supervised, **as_dataset_kwargs)
if with_info:
  return ds, builder.info
return ds
 

如果您希望使用NumPy数组而不是tf.data.Datasettf.Tensor ,则可以将返回值传递给tfds.as_numpy

调用者必须将参数作为关键字参数传递。

name strDatasetBuilder的注册名称(类名的蛇形版本)。对于带有BuilderConfig的数据集,可以为"dataset_name""dataset_name/config_name" 。为方便起见,此字符串可能包含用于构建器的逗号分隔的关键字参数。例如, "foo_bar/a=True,b=3"将使用FooBar数据集传递关键字参数a=Trueb=3 (对于具有配置的构建器,它将是"foo_bar/zoo/a=True,b=3"使用"zoo"的配置,并传递给构建器关键字参数a=Trueb=3 )。
split 要加载的数据拆分(例如'train''test' ['train', 'test']'train[80%:]'等)。请参阅我们的拆分API指南 。如果为None ,则将返回Dict[Split, tf.data.Dataset]所有拆分
data_dir str ,用于读取/写入数据的目录。如果设置,则默认为环境变量TFDS_DATA_DIR的值,否则返回“〜/ tensorflow_datasets”。
batch_size int (如果已设置),则将批次尺寸添加到示例中。请注意,可变长度功能将填充0。如果batch_size=-1 ,将以tf.Tensor的形式返回完整的数据集。
shuffle_files bool ,是否随机播放输入文件。默认为False
download bool (可选),是否在调用tfds.core.DatasetBuilder.download_and_prepare之前先调用tf.DatasetBuilder.as_dataset 。如果为False ,则数据应位于data_dir 。如果为True且数据已经在data_dir ,则download_and_prepare为空。
as_supervised bool ,如果为True ,则根据builder.info.supervised_keys ,返回的tf.data.Dataset将具有2元组结构(input, label) 。如果为False (默认值),则返回的tf.data.Dataset将具有包含所有功能的字典。
decoders 可以自定义解码的Decoder对象的嵌套字典。该结构应与要素结构匹配,但是仅需要显示自定义的要素密钥。有关更多信息,请参见指南
read_config tfds.ReadConfig ,用于配置输入管道的其他选项(例如,种子,并行读取数,...)。
with_info bool ,如果为True,则tfds.load将返回包含与构建器关联的信息的元组(tf.data.Dataset,tfds.core.DatasetInfo)。
builder_kwargs dict (可选),要传递给tfds.core.DatasetBuilder构造函数的关键字参数。 data_dir将默认通过。
download_and_prepare_kwargs 如果download=Truetfds.core.DatasetBuilder.download_and_prepare dict (可选)关键字参数传递给tfds.core.DatasetBuilder.download_and_prepare 。允许控制在何处下载和提取缓存的数据。如果未设置,则将从data_dir中自动推断出cache_dir和manual_dir。
as_dataset_kwargs dict (可选),关键字参数传递给tfds.core.DatasetBuilder.as_dataset
try_gcs bool ,如果为True,则tfds.load将在本地构建数据集之前查看该数据集是否存在于公共GCS存储桶中。

ds tf.data.Dataset ,即请求的数据集;如果split为None, dict<key: tfds.Split, value: tfds.data.Dataset> 。如果batch_size=-1 ,这些将是完整数据集,如tf.Tensor
ds_info tfds.core.DatasetInfo ,如果with_info为True,则tfds.load将返回一个包含数据集信息(版本,功能,拆分,num_examples等)的元组(ds, ds_info) )。请注意, ds_info对象记录了整个数据集,而与请求的split无关。特定于拆分的信息可在ds_info.splitsds_info.splits