Ta strona została przetłumaczona przez Cloud Translation API.
Switch to English

tf.data.TextLineDataset

TensorFlow 1 wersja Zobacz źródło na GitHub

Dataset zawierający wiersze z jednego lub więcej plików tekstowych.

Stosowany w notebookach

Używany w przewodniku Używany w samouczków

filenames tf.string napinacz lub tf.data.Dataset zawierający jeden lub więcej nazw.
compression_type (Opcjonalnie). A tf.string skalarne oceny jednego z "" (bez kompresji), "ZLIB" lub "GZIP" .
buffer_size (Opcjonalnie). A tf.int64 skalarne oznaczającą liczbę bajtów bufor. Wartość 0 prowadzi do buforowania wartości domyślnych wybrany w oparciu o typ kompresji.
num_parallel_reads (Opcjonalnie). A tf.int64 skalarny reprezentujący liczbę plików czytać równolegle. Jeśli wartość jest większa niż jeden, zapisy plików czytać równolegle są wyprowadzane w kolejności z przeplotem. Jeśli rurociąg jest wejście I / O wąskich gardeł, rozważ ustawienie tego parametru na wartość większą niż jeden parallelize I / O. Jeśli None , pliki zostaną odczytane sekwencyjnie.

element_spec W opisie typ elementu zbioru danych.

dataset = tf.data.Dataset.from_tensor_slices([1, 2, 3])
dataset.element_spec
TensorSpec(shape=(), dtype=tf.int32, name=None)

metody

apply

Pokaż źródło

Dotyczy funkcję transformacji na tym zbiorze.

apply umożliwia łączenia niestandardowych Dataset przemian, które są reprezentowane jako funkcje, które mają jednego Dataset argumentu i zwraca przekształconą Dataset .

dataset = tf.data.Dataset.range(100)
def dataset_fn(ds):
  return ds.filter(lambda x: x < 5)
dataset = dataset.apply(dataset_fn)
list(dataset.as_numpy_iterator())
[0, 1, 2, 3, 4]

args
transformation_func Funkcja, która trwa jeden Dataset argumentu i zwraca Dataset .

Zwroty
Dataset Dataset zwróconych przez zastosowanie transformation_func do zbioru danych.

as_numpy_iterator

Pokaż źródło

Zwraca iterator który konwertuje wszystkie elementy zbioru danych do numpy.

Użyj as_numpy_iterator aby sprawdzić zawartość zbioru danych. Aby zobaczyć kształtów i typów elementów, elementy zestawu danych drukować bezpośrednio zamiast korzystać as_numpy_iterator .

dataset = tf.data.Dataset.from_tensor_slices([1, 2, 3])
for element in dataset:
  print(element)
tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)

Ta metoda wymaga, że są uruchomione w trybie chętny i element_spec DataSet zawiera tylko TensorSpec komponentów.

dataset = tf.data.Dataset.from_tensor_slices([1, 2, 3])
for element in dataset.as_numpy_iterator():
  print(element)
1
2
3
dataset = tf.data.Dataset.from_tensor_slices([1, 2, 3])
print(list(dataset.as_numpy_iterator()))
[1, 2, 3]

as_numpy_iterator() zachowuje zagnieżdżony strukturę zestawu danych elementów.

dataset = tf.data.Dataset.from_tensor_slices({'a': ([1, 2], [3, 4]),
                                              'b': [5, 6]})
list(dataset.as_numpy_iterator()) == [{'a': (1, 3), 'b': 5},
                                      {'a': (2, 4), 'b': 6}]
True

Zwroty
Iterowalny ciągu elementów zestawu danych, z ich tensorów przekształca się NumPy tablicach.

podbicia
TypeError Jeżeli element zawiera niebędącą Tensor wartość.
RuntimeError jeśli chętny wykonanie nie jest włączona.

batch

Pokaż źródło

Łączy kolejnych elementów zbioru danych w partie.

dataset = tf.data.Dataset.range(8)
dataset = dataset.batch(3)
list(dataset.as_numpy_iterator())
[array([0, 1, 2]), array([3, 4, 5]), array([6, 7])]
dataset = tf.data.Dataset.range(8)
dataset = dataset.batch(3, drop_remainder=True)
list(dataset.as_numpy_iterator())
[array([0, 1, 2]), array([3, 4, 5])]

Składniki otrzymanego posiada element dodatkowy wymiar zewnętrzny, który będzie batch_size (lub N % batch_size do ostatniego elementu jeśli batch_size nie dzieli się liczbę elementów wejściowych N równomiernie drop_remainder jest False ). If your program depends on the batches having the same outer dimension, you should set the drop_remainder argument to True to prevent the smaller batch from being produced.

Args
batch_size A tf.int64 scalar tf.Tensor , representing the number of consecutive elements of this dataset to combine in a single batch.
drop_remainder (Optional.) A tf.bool scalar tf.Tensor , representing whether the last batch should be dropped in the case it has fewer than batch_size elements; the default behavior is not to drop the smaller batch.

Returns
Dataset A Dataset .