Se usó la API de Cloud Translation para traducir esta página.
Switch to English

tf.data.experimental.make_csv_dataset

TensorFlow 1 versión Ver código fuente en GitHub

Lee archivos CSV en un conjunto de datos.

Se utiliza en los cuadernos

Se utiliza en la guía Se utiliza en los tutoriales

Lee archivos CSV en un conjunto de datos, donde cada elemento es un (características, etiquetas) tupla que corresponde a un lote de filas CSV. Las características de los mapas de diccionario disponen de nombres de columna a Tensor s que contiene los datos de entidad correspondientes, y las etiquetas es una Tensor que contiene datos de la etiqueta del lote.

file_pattern Lista de archivos o patrones de las rutas de archivos que contienen registros CSV. Ver tf.io.gfile.glob para las reglas del patrón.
batch_size Un int que representa el número de registros que se combinan en un solo lote.
column_names Una lista opcional de cadenas que corresponde a las columnas CSV, en orden. Una por columna del registro de entrada. Si esto no se proporciona, se infieren los nombres de columna de la primera fila de los registros. Estos nombres serán las claves de las características de cada elemento dict conjunto de datos.
column_defaults Una lista opcional de los valores predeterminados para los campos CSV. Uno de los puntos por columna seleccionada del registro de entrada. Cada elemento de la lista es o bien un dtype válido CSV (float32, float64, int32, Int64, o cadena), o un Tensor con uno de los tipos mencionados anteriormente. El tensor puede ser o bien un valor por defecto escalar (si la columna es opcional), o (si se requiere la columna) un tensor vacía. Si se proporciona un dtype en lugar de un tensor, la columna también se trata como se requiera. Si no se proporciona esta lista, intenta tipos Deducir basan en la lectura de las primeras filas num_rows_for_inference de archivos especificados, y asume todas las columnas son opcionales, por defecto a 0 para los valores numéricos y "" para los valores de cadena. Si tanto esta y select_columns se especifican, éstos deben tener las mismas longitudes, y column_defaults se supone que es ordenados en orden creciente de índice de la columna.
label_name Una cadena opcional correspondiente a la columna de la etiqueta. Si se proporciona, los datos para esta columna se devuelve como una separada Tensor de la Características de los diccionarios, por lo que cumple el conjunto de datos con el formato esperado por un tf.Estimator.train o tf.Estimator.evaluate función de entrada.
select_columns Una lista opcional de índices enteros o nombres de columna de cadena, que especifica un subconjunto de columnas de datos CSV para seleccionar. Si se proporcionan los nombres de columna, éstos deben corresponder a los nombres proporcionados en column_names o inferidas de las líneas de cabecera del archivo. Cuando se especifica este argumento, sólo un subconjunto de columnas CSV se analiza y se volvió, lo que corresponde a las columnas especificadas. El uso de estos resultados en el análisis más rápido y menor uso de memoria. Si tanto esta y column_defaults se especifican, éstos deben tener las mismas longitudes, y column_defaults se supone que es ordenados en orden creciente de índice de la columna.
field_delim Un opcional de string . Por defecto es "," . Char delimitador para separar los campos de un registro.
use_quote_delim Un bool opcional. El valor predeterminado es True . Si, trata comillas falsas como personajes regulares dentro de los campos de cadena.
na_value cadena adicional a reconocer como NA / NaN.
header Un bool que indica si las primeras filas de los archivos CSV proporcionados corresponden a líneas de cabecera con los nombres de columna, y no deben ser incluidos en los datos.
num_epochs Un int que especifica el número de veces que se repite este conjunto de datos. Si ninguno, los ciclos a través del conjunto de datos para siempre.
shuffle Un bool que indica si la entrada debe estar arrastrando los pies.
shuffle_buffer_size Tamaño del buffer a utilizar para barajar. Una gran tamaño del búfer asegura una mejor arrastrando los pies, pero el uso de memoria aumenta y el tiempo de inicio.
shuffle_seed semilla de aleatorización a utilizar para arrastrar los pies.
prefetch_buffer_size Un entero que especifica el número de lotes de características de captación previa para la mejora del rendimiento. El valor recomendado es el número de lotes que se consumen por etapa de formación. Por defecto es auto-tune.
num_parallel_reads Número de hilos utilizado para leer los registros de los archivos CSV. Si> 1, se intercalan los resultados. El valor predeterminado es 1 .
sloppy Si True , el rendimiento de la lectura será mejorada a costa de pedidos no determinista. Si False , el orden de los elementos producidos es determinista antes de arrastrar los pies (elementos todavía se asignan al azar si shuffle=True . Tenga en cuenta que si se ha establecido la semilla, entonces el orden de los elementos después de barajar es determinista). El valor predeterminado es False .
num_rows_for_inference Número de filas de un archivo que se utilizará para la inferencia de tipos si no se proporciona record_defaults. Si ninguno, lee todas las filas de todos los archivos. El valor predeterminado es 100.
compression_type (Opcional.) A tf.string escalar evaluar a una de "" (sin compresión), "ZLIB" , o "GZIP" . El valor predeterminado es sin compresión.
ignore_errors (Opcional.) Si True , ignora los errores con CSV archivo de análisis, tales como datos malformados o líneas en blanco, y pasa al siguiente registro CSV válido. De lo contrario, el conjunto de datos genera un error y detiene el proceso cuando se enfrentan a los registros no válidos. El valor predeterminado es False .

Un conjunto de datos, donde cada elemento es un (características, etiquetas) tupla que corresponde a un lote de batch_size filas CSV. Las características de los mapas de diccionario disponen de nombres de columna a Tensor s que contiene los datos de columna correspondientes, y las etiquetas es una Tensor que contiene los datos de columna para la columna de la etiqueta especificada por label_name .

ValueError Si está mal formado ninguno de los argumentos.