Ayuda a proteger la Gran Barrera de Coral con TensorFlow en Kaggle Únete Challenge

Clasificación de texto básica

Ver en TensorFlow.org Ejecutar en Google Colab Ver fuente en GitHub Descargar cuaderno

Este tutorial demuestra la clasificación de texto a partir de archivos de texto sin formato almacenados en el disco. Entrenarás a un clasificador binario para realizar análisis de sentimientos en un conjunto de datos IMDB. Al final del cuaderno, hay un ejercicio para que lo pruebe, en el que entrenará a un clasificador de varias clases para predecir la etiqueta de una pregunta de programación en Stack Overflow.

import matplotlib.pyplot as plt
import os
import re
import shutil
import string
import tensorflow as tf

from tensorflow.keras import layers
from tensorflow.keras import losses
print(tf.__version__)
2.7.0

Análisis de los sentimientos

Este cuaderno forma a un modelo de análisis de los sentimientos de críticas de películas Clasificar como positivo o negativo, con base en el texto de la revisión. Este es un ejemplo de binario -o de dos clases-clasificación, un importante y ampliamente aplicable tipo de problema de aprendizaje de máquina.

Vamos a usar la Gran Reseña de la película de conjunto de datos que contiene el texto de 50.000 reseñas de películas de la Internet Movie Database . Estos se dividen en 25,000 revisiones para capacitación y 25,000 revisiones para pruebas. Las prácticas y pruebas conjuntos están equilibrados, lo que significa que contienen el mismo número de críticas positivas y negativas.

Descargue y explore el conjunto de datos de IMDB

Descarguemos y extraigamos el conjunto de datos, luego exploremos la estructura del directorio.

url = "https://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz"

dataset = tf.keras.utils.get_file("aclImdb_v1", url,
                                    untar=True, cache_dir='.',
                                    cache_subdir='')

dataset_dir = os.path.join(os.path.dirname(dataset), 'aclImdb')
Downloading data from https://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz
84131840/84125825 [==============================] - 1s 0us/step
84140032/84125825 [==============================] - 1s 0us/step
os.listdir(dataset_dir)
['imdbEr.txt', 'README', 'train', 'test', 'imdb.vocab']
train_dir = os.path.join(dataset_dir, 'train')
os.listdir(train_dir)
['labeledBow.feat',
 'urls_pos.txt',
 'urls_unsup.txt',
 'unsup',
 'pos',
 'unsupBow.feat',
 'urls_neg.txt',
 'neg']

Los aclImdb/train/pos y aclImdb/train/neg directorios contienen muchos archivos de texto, cada una de las cuales es una sola reseña de la película. Echemos un vistazo a uno de ellos.

sample_file = os.path.join(train_dir, 'pos/1181_9.txt')
with open(sample_file) as f:
  print(f.read())
Rachel Griffiths writes and directs this award winning short film. A heartwarming story about coping with grief and cherishing the memory of those we've loved and lost. Although, only 15 minutes long, Griffiths manages to capture so much emotion and truth onto film in the short space of time. Bud Tingwell gives a touching performance as Will, a widower struggling to cope with his wife's death. Will is confronted by the harsh reality of loneliness and helplessness as he proceeds to take care of Ruth's pet cow, Tulip. The film displays the grief and responsibility one feels for those they have loved and lost. Good cinematography, great direction, and superbly acted. It will bring tears to all those who have lost a loved one, and survived.

Cargar el conjunto de datos

A continuación, cargará los datos del disco y los preparará en un formato adecuado para el entrenamiento. Para ello, se utilizará el útil text_dataset_from_directory utilidad, que espera una estructura de directorios de la siguiente manera.

main_directory/
...class_a/
......a_text_1.txt
......a_text_2.txt
...class_b/
......b_text_1.txt
......b_text_2.txt

Para preparar un conjunto de datos para la clasificación binaria, tendrá dos carpetas en el disco, lo que corresponde a class_a y class_b . Estas serán las reseñas de películas positivas y negativas, que se pueden encontrar en aclImdb/train/pos y aclImdb/train/neg . Como el conjunto de datos de IMDB contiene carpetas adicionales, las eliminará antes de usar esta utilidad.

remove_dir = os.path.join(train_dir, 'unsup')
shutil.rmtree(remove_dir)

A continuación, se utilizará el text_dataset_from_directory utilidad para crear una etiqueta tf.data.Dataset . tf.data es un potente conjunto de herramientas para trabajar con datos.

Cuando se ejecuta un experimento de aprendizaje automático, es una buena práctica para dividir el conjunto de datos en tres divisiones: tren , validación y prueba .

El conjunto de datos de IMDB ya se ha dividido en entrenamiento y prueba, pero carece de un conjunto de validación. Vamos a crear un conjunto de validación utilizando una mezcla al 80/20 escisión de la formación de datos mediante el uso de la validation_split argumento a continuación.

batch_size = 32
seed = 42

raw_train_ds = tf.keras.utils.text_dataset_from_directory(
    'aclImdb/train', 
    batch_size=batch_size, 
    validation_split=0.2, 
    subset='training', 
    seed=seed)
Found 25000 files belonging to 2 classes.
Using 20000 files for training.

Como puede ver arriba, hay 25.000 ejemplos en la carpeta de formación, de los cuales utilizará el 80% (o 20.000) para la formación. Como se verá en un momento, se puede entrenar a un modelo que pasa por un conjunto de datos directamente a model.fit . Si eres nuevo en tf.data , también se puede iterar sobre el conjunto de datos e imprimir algunos ejemplos de la siguiente manera.

for text_batch, label_batch in raw_train_ds.take(1):
  for i in range(3):
    print("Review", text_batch.numpy()[i])
    print("Label", label_batch.numpy()[i])
Review b'"Pandemonium" is a horror movie spoof that comes off more stupid than funny. Believe me when I tell you, I love comedies. Especially comedy spoofs. "Airplane", "The Naked Gun" trilogy, "Blazing Saddles", "High Anxiety", and "Spaceballs" are some of my favorite comedies that spoof a particular genre. "Pandemonium" is not up there with those films. Most of the scenes in this movie had me sitting there in stunned silence because the movie wasn\'t all that funny. There are a few laughs in the film, but when you watch a comedy, you expect to laugh a lot more than a few times and that\'s all this film has going for it. Geez, "Scream" had more laughs than this film and that was more of a horror film. How bizarre is that?<br /><br />*1/2 (out of four)'
Label 0
Review b"David Mamet is a very interesting and a very un-equal director. His first movie 'House of Games' was the one I liked best, and it set a series of films with characters whose perspective of life changes as they get into complicated situations, and so does the perspective of the viewer.<br /><br />So is 'Homicide' which from the title tries to set the mind of the viewer to the usual crime drama. The principal characters are two cops, one Jewish and one Irish who deal with a racially charged area. The murder of an old Jewish shop owner who proves to be an ancient veteran of the Israeli Independence war triggers the Jewish identity in the mind and heart of the Jewish detective.<br /><br />This is were the flaws of the film are the more obvious. The process of awakening is theatrical and hard to believe, the group of Jewish militants is operatic, and the way the detective eventually walks to the final violent confrontation is pathetic. The end of the film itself is Mamet-like smart, but disappoints from a human emotional perspective.<br /><br />Joe Mantegna and William Macy give strong performances, but the flaws of the story are too evident to be easily compensated."
Label 0
Review b'Great documentary about the lives of NY firefighters during the worst terrorist attack of all time.. That reason alone is why this should be a must see collectors item.. What shocked me was not only the attacks, but the"High Fat Diet" and physical appearance of some of these firefighters. I think a lot of Doctors would agree with me that,in the physical shape they were in, some of these firefighters would NOT of made it to the 79th floor carrying over 60 lbs of gear. Having said that i now have a greater respect for firefighters and i realize becoming a firefighter is a life altering job. The French have a history of making great documentary\'s and that is what this is, a Great Documentary.....'
Label 1

Tenga en cuenta los comentarios contienen texto sin formato (con puntuacion y etiquetas HTML ocasionales como <br/> ). Mostrará cómo manejarlos en la siguiente sección.

Las etiquetas son 0 ó 1. Para ver cuál de estos corresponden a críticas de películas positivas y negativas, se puede comprobar la class_names propiedad en el conjunto de datos.

print("Label 0 corresponds to", raw_train_ds.class_names[0])
print("Label 1 corresponds to", raw_train_ds.class_names[1])
Label 0 corresponds to neg
Label 1 corresponds to pos

A continuación, creará un conjunto de datos de validación y prueba. Utilizará las 5.000 revisiones restantes del conjunto de formación para la validación.

raw_val_ds = tf.keras.utils.text_dataset_from_directory(
    'aclImdb/train', 
    batch_size=batch_size, 
    validation_split=0.2, 
    subset='validation', 
    seed=seed)
Found 25000 files belonging to 2 classes.
Using 5000 files for validation.
raw_test_ds = tf.keras.utils.text_dataset_from_directory(
    'aclImdb/test', 
    batch_size=batch_size)
Found 25000 files belonging to 2 classes.

Prepare el conjunto de datos para el entrenamiento

A continuación, se estandarizará, tokenize y vectorizar los datos utilizando el útil tf.keras.layers.TextVectorization capa.

La estandarización se refiere al preprocesamiento del texto, generalmente para eliminar la puntuación o elementos HTML para simplificar el conjunto de datos. La tokenización se refiere a dividir cadenas en tokens (por ejemplo, dividir una oración en palabras individuales, dividiéndola en espacios en blanco). La vectorización se refiere a convertir tokens en números para que puedan introducirse en una red neuronal. Todas estas tareas se pueden realizar con esta capa.

Como se vio anteriormente, los comentarios contienen varias etiquetas HTML como <br /> . Estas etiquetas no serán retirados por el Standardizer predeterminada en el TextVectorization capa (que convierte el texto en minúsculas y tiras de puntuacion por defecto, pero no tira HTML). Escribirás una función de estandarización personalizada para eliminar el HTML.

def custom_standardization(input_data):
  lowercase = tf.strings.lower(input_data)
  stripped_html = tf.strings.regex_replace(lowercase, '<br />', ' ')
  return tf.strings.regex_replace(stripped_html,
                                  '[%s]' % re.escape(string.punctuation),
                                  '')

A continuación, se creará un TextVectorization capa. Utilizará esta capa para estandarizar, tokenizar y vectorizar nuestros datos. Se establece el output_mode a int para crear índices enteros únicos para cada ficha.

Tenga en cuenta que está utilizando la función de división predeterminada y la función de estandarización personalizada que definió anteriormente. También podrá definir algunas constantes para el modelo, como un máximo explícita sequence_length , lo que hará que la capa de secuencias almohadilla o truncar a exactamente sequence_length valores.

max_features = 10000
sequence_length = 250

vectorize_layer = layers.TextVectorization(
    standardize=custom_standardization,
    max_tokens=max_features,
    output_mode='int',
    output_sequence_length=sequence_length)

A continuación, se llamará a adapt para adaptarse a la situación de la capa preprocesamiento del conjunto de datos. Esto hará que el modelo cree un índice de cadenas a números enteros.

# Make a text-only dataset (without labels), then call adapt
train_text = raw_train_ds.map(lambda x, y: x)
vectorize_layer.adapt(train_text)

Creemos una función para ver el resultado de usar esta capa para preprocesar algunos datos.

def vectorize_text(text, label):
  text = tf.expand_dims(text, -1)
  return vectorize_layer(text), label
# retrieve a batch (of 32 reviews and labels) from the dataset
text_batch, label_batch = next(iter(raw_train_ds))
first_review, first_label = text_batch[0], label_batch[0]
print("Review", first_review)
print("Label", raw_train_ds.class_names[first_label])
print("Vectorized review", vectorize_text(first_review, first_label))
Review tf.Tensor(b'Great movie - especially the music - Etta James - "At Last". This speaks volumes when you have finally found that special someone.', shape=(), dtype=string)
Label neg
Vectorized review (<tf.Tensor: shape=(1, 250), dtype=int64, numpy=
array([[  86,   17,  260,    2,  222,    1,  571,   31,  229,   11, 2418,
           1,   51,   22,   25,  404,  251,   12,  306,  282,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0]])>, <tf.Tensor: shape=(), dtype=int32, numpy=0>)

Como puede ver arriba, cada token ha sido reemplazado por un número entero. Usted puede buscar el token (cadena) que cada entero corresponde a llamar por .get_vocabulary() en la capa.

print("1287 ---> ",vectorize_layer.get_vocabulary()[1287])
print(" 313 ---> ",vectorize_layer.get_vocabulary()[313])
print('Vocabulary size: {}'.format(len(vectorize_layer.get_vocabulary())))
1287 --->  silent
 313 --->  night
Vocabulary size: 10000

Estás casi listo para entrenar tu modelo. Como paso final de preprocesamiento, aplicará la capa TextVectorization que creó anteriormente al conjunto de datos de entrenamiento, validación y prueba.

train_ds = raw_train_ds.map(vectorize_text)
val_ds = raw_val_ds.map(vectorize_text)
test_ds = raw_test_ds.map(vectorize_text)

Configurar el conjunto de datos para el rendimiento

Estos son dos métodos importantes que debe utilizar al cargar datos para asegurarse de que la E / S no se bloquee.

.cache() mantiene los datos en la memoria después de que se ha cargado el disco fuera. Esto asegurará que el conjunto de datos no se convierta en un cuello de botella mientras entrena su modelo. Si su conjunto de datos es demasiado grande para caber en la memoria, también puede usar este método para crear una caché en disco de alto rendimiento, que es más eficiente de leer que muchos archivos pequeños.

.prefetch() se superpone datos de pre-procesamiento y la ejecución del modelo durante el entrenamiento.

Usted puede aprender más acerca de ambos métodos, así como la forma de datos de la caché en el disco en la guía de rendimiento de los datos .

AUTOTUNE = tf.data.AUTOTUNE

train_ds = train_ds.cache().prefetch(buffer_size=AUTOTUNE)
val_ds = val_ds.cache().prefetch(buffer_size=AUTOTUNE)
test_ds = test_ds.cache().prefetch(buffer_size=AUTOTUNE)

Crea el modelo

Es hora de crear su red neuronal:

embedding_dim = 16
model = tf.keras.Sequential([
  layers.Embedding(max_features + 1, embedding_dim),
  layers.Dropout(0.2),
  layers.GlobalAveragePooling1D(),
  layers.Dropout(0.2),
  layers.Dense(1)])

model.summary()
Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 embedding (Embedding)       (None, None, 16)          160016    
                                                                 
 dropout (Dropout)           (None, None, 16)          0         
                                                                 
 global_average_pooling1d (G  (None, 16)               0         
 lobalAveragePooling1D)                                          
                                                                 
 dropout_1 (Dropout)         (None, 16)                0         
                                                                 
 dense (Dense)               (None, 1)                 17        
                                                                 
=================================================================
Total params: 160,033
Trainable params: 160,033
Non-trainable params: 0
_________________________________________________________________

Las capas se apilan secuencialmente para construir el clasificador:

  1. La primera capa es una Embedding capa. Esta capa toma las revisiones codificadas con números enteros y busca un vector de incrustación para cada índice de palabras. Estos vectores se aprenden a medida que se entrena el modelo. Los vectores agregan una dimensión a la matriz de salida. Las dimensiones resultantes son: (batch, sequence, embedding) . Para aprender más acerca de las incrustaciones, consulte la palabra incrustación de tutorial .
  2. A continuación, una GlobalAveragePooling1D capa devuelve un vector de salida de longitud fija para cada ejemplo promediando sobre la dimensión secuencia. Esto permite que el modelo maneje entradas de longitud variable, de la manera más simple posible.
  3. Este vector de salida de longitud fija se canaliza a través de un plenamente conectado ( Dense capa) con 16 unidades ocultas.
  4. La última capa está densamente conectada con un solo nodo de salida.

Función de pérdida y optimizador

Un modelo necesita una función de pérdida y un optimizador para el entrenamiento. Dado que este es un problema de clasificación binaria y el modelo de salidas una probabilidad (una capa de una sola unidad con una activación sigmoide), va a utilizar losses.BinaryCrossentropy función de pérdida.

Ahora, configure el modelo para usar un optimizador y una función de pérdida:

model.compile(loss=losses.BinaryCrossentropy(from_logits=True),
              optimizer='adam',
              metrics=tf.metrics.BinaryAccuracy(threshold=0.0))

Entrena el modelo

Va a entrenar el modelo por el que pasa el dataset de objeto al método de ajuste.

epochs = 10
history = model.fit(
    train_ds,
    validation_data=val_ds,
    epochs=epochs)
Epoch 1/10
625/625 [==============================] - 3s 4ms/step - loss: 0.6650 - binary_accuracy: 0.6944 - val_loss: 0.6150 - val_binary_accuracy: 0.7728
Epoch 2/10
625/625 [==============================] - 2s 3ms/step - loss: 0.5478 - binary_accuracy: 0.8003 - val_loss: 0.4973 - val_binary_accuracy: 0.8224
Epoch 3/10
625/625 [==============================] - 2s 3ms/step - loss: 0.4440 - binary_accuracy: 0.8451 - val_loss: 0.4195 - val_binary_accuracy: 0.8466
Epoch 4/10
625/625 [==============================] - 2s 3ms/step - loss: 0.3774 - binary_accuracy: 0.8662 - val_loss: 0.3733 - val_binary_accuracy: 0.8624
Epoch 5/10
625/625 [==============================] - 2s 3ms/step - loss: 0.3349 - binary_accuracy: 0.8785 - val_loss: 0.3446 - val_binary_accuracy: 0.8666
Epoch 6/10
625/625 [==============================] - 2s 3ms/step - loss: 0.3049 - binary_accuracy: 0.8892 - val_loss: 0.3260 - val_binary_accuracy: 0.8718
Epoch 7/10
625/625 [==============================] - 2s 3ms/step - loss: 0.2809 - binary_accuracy: 0.8979 - val_loss: 0.3130 - val_binary_accuracy: 0.8730
Epoch 8/10
625/625 [==============================] - 2s 3ms/step - loss: 0.2618 - binary_accuracy: 0.9042 - val_loss: 0.3033 - val_binary_accuracy: 0.8762
Epoch 9/10
625/625 [==============================] - 2s 3ms/step - loss: 0.2449 - binary_accuracy: 0.9105 - val_loss: 0.2965 - val_binary_accuracy: 0.8786
Epoch 10/10
625/625 [==============================] - 2s 3ms/step - loss: 0.2315 - binary_accuracy: 0.9167 - val_loss: 0.2921 - val_binary_accuracy: 0.8804

Evaluar el modelo

Veamos cómo funciona el modelo. Se devolverán dos valores. Pérdida (un número que representa nuestro error, los valores más bajos son mejores) y precisión.

loss, accuracy = model.evaluate(test_ds)

print("Loss: ", loss)
print("Accuracy: ", accuracy)
782/782 [==============================] - 2s 2ms/step - loss: 0.3102 - binary_accuracy: 0.8728
Loss:  0.31020036339759827
Accuracy:  0.8728399872779846

Este enfoque bastante ingenuo logra una precisión de aproximadamente el 86%.

Cree una gráfica de precisión y pérdida a lo largo del tiempo.

model.fit() devuelve una History objeto que contiene un diccionario con todo lo que pasó durante el entrenamiento:

history_dict = history.history
history_dict.keys()
dict_keys(['loss', 'binary_accuracy', 'val_loss', 'val_binary_accuracy'])

Hay cuatro entradas: una para cada métrica supervisada durante el entrenamiento y la validación. Puede utilizarlos para trazar la pérdida de entrenamiento y validación para comparar, así como la precisión de entrenamiento y validación:

acc = history_dict['binary_accuracy']
val_acc = history_dict['val_binary_accuracy']
loss = history_dict['loss']
val_loss = history_dict['val_loss']

epochs = range(1, len(acc) + 1)

# "bo" is for "blue dot"
plt.plot(epochs, loss, 'bo', label='Training loss')
# b is for "solid blue line"
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()

plt.show()

png

plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.legend(loc='lower right')

plt.show()

png

En este gráfico, los puntos representan la pérdida y la precisión del entrenamiento, y las líneas continuas son la pérdida y la precisión de la validación.

Tenga en cuenta la pérdida de entrenamiento disminuye con cada época y la exactitud de formación aumenta con cada época. Esto se espera cuando se usa una optimización de descenso de gradiente; debe minimizar la cantidad deseada en cada iteración.

Este no es el caso de la pérdida y precisión de la validación; parecen alcanzar su punto máximo antes que la precisión del entrenamiento. Este es un ejemplo de sobreajuste: el modelo funciona mejor con los datos de entrenamiento que con los datos que nunca antes había visto. Después de este punto, el modelo más: optimiza y se entera de representaciones específicas a los datos de entrenamiento que no se generalizan a los datos de prueba.

Para este caso particular, podría evitar el sobreajuste simplemente deteniendo el entrenamiento cuando la precisión de la validación ya no aumente. Una forma de hacerlo es utilizar el tf.keras.callbacks.EarlyStopping de devolución de llamada.

Exportar el modelo

En el código anterior, se aplicó el TextVectorization capa para el conjunto de datos de texto antes de alimentar al modelo. Si desea hacer su modelo capaz de procesar cadenas primas (por ejemplo, para simplificar su despliegue), puede incluir la TextVectorization capa interior de su modelo. Para hacerlo, puede crear un nuevo modelo utilizando los pesos que acaba de entrenar.

export_model = tf.keras.Sequential([
  vectorize_layer,
  model,
  layers.Activation('sigmoid')
])

export_model.compile(
    loss=losses.BinaryCrossentropy(from_logits=False), optimizer="adam", metrics=['accuracy']
)

# Test it with `raw_test_ds`, which yields raw strings
loss, accuracy = export_model.evaluate(raw_test_ds)
print(accuracy)
782/782 [==============================] - 3s 3ms/step - loss: 0.3102 - accuracy: 0.8728
0.8728399872779846

Inferencia sobre nuevos datos

Para obtener predicciones para nuevos ejemplos, sólo tiene que llamar model.predict() .

examples = [
  "The movie was great!",
  "The movie was okay.",
  "The movie was terrible..."
]

export_model.predict(examples)
array([[0.60190666],
       [0.4210796 ],
       [0.34067595]], dtype=float32)

Incluyendo la lógica de procesamiento previo de texto dentro de su modelo le permite exportar un modelo de producción que simplifica la instalación y reduce el potencial de tren / prueba de inclinación .

Hay una diferencia de rendimiento a tener en cuenta al elegir dónde aplicar su capa TextVectorization. Usarlo fuera de su modelo le permite realizar un procesamiento de CPU asincrónico y almacenamiento en búfer de sus datos cuando entrena en GPU. Entonces, si está entrenando su modelo en la GPU, probablemente quiera usar esta opción para obtener el mejor rendimiento mientras desarrolla su modelo, luego cambie a incluir la capa TextVectorization dentro de su modelo cuando esté listo para prepararse para la implementación .

Visita este tutorial para aprender más sobre el ahorro modelos.

Ejercicio: clasificación de varias clases en las preguntas de Stack Overflow

Este tutorial mostró cómo entrenar un clasificador binario desde cero en el conjunto de datos IMDB. A modo de ejercicio, puede modificar este portátil para entrenar a un clasificador multiclase para predecir la etiqueta de una cuestión de programación de desbordamiento de pila .

Un conjunto de datos se ha preparado para su uso que contiene el cuerpo de varios miles de preguntas de programación (por ejemplo, "¿Cómo puedo ordenar un diccionario de términos de valor en Python?") Publicado a desbordamiento de pila. Cada uno de estos está etiquetado con exactamente una etiqueta (ya sea Python, CSharp, JavaScript o Java). Su tarea es tomar una pregunta como entrada y predecir la etiqueta apropiada, en este caso, Python.

El conjunto de datos que va a trabajar contiene varios miles de preguntas extraídas del público mucho más grande de desbordamiento de pila en el conjunto de datos de BigQuery , que contiene más de 17 millones de mensajes.

Después de descargar el conjunto de datos, encontrará que tiene una estructura de directorio similar al conjunto de datos IMDB con el que trabajó anteriormente:

train/
...python/
......0.txt
......1.txt
...javascript/
......0.txt
......1.txt
...csharp/
......0.txt
......1.txt
...java/
......0.txt
......1.txt

Para completar este ejercicio, debe modificar este cuaderno para que funcione con el conjunto de datos de Stack Overflow realizando las siguientes modificaciones:

  1. En la parte superior de su ordenador portátil, actualice el código que se descarga el conjunto de datos IMDB con código para descargar el conjunto de datos de desbordamiento de pila que ya se ha preparado. Como el conjunto de datos de Stack Overflow tiene una estructura de directorio similar, no necesitará realizar muchas modificaciones.

  2. Modificar la última capa de su modelo para Dense(4) , ya que ahora hay cuatro clases de potencia.

  3. Al compilar el modelo, cambiar la pérdida de tf.keras.losses.SparseCategoricalCrossentropy . Esta es la función de pérdida correcta a utilizar para un problema de clasificación de clase multi, cuando las etiquetas para cada clase son números enteros (en este caso, pueden ser 0, 1, 2, o 3). Además, cambiar las métricas para metrics=['accuracy'] , ya que este es un problema de clasificación multi-clase ( tf.metrics.BinaryAccuracy sólo se utiliza para clasificadores binarios).

  4. Al trazar la precisión con el tiempo, el cambio binary_accuracy y val_binary_accuracy a accuracy y val_accuracy , respectivamente.

  5. Una vez que se completen estos cambios, podrá entrenar a un clasificador de clases múltiples.

Aprendiendo más

Este tutorial introdujo la clasificación de texto desde cero. Para obtener más información sobre el flujo de trabajo de clasificación de texto en general, echa un vistazo a la guía de clasificación de texto de desarrolladores de Google.

# MIT License
#
# Copyright (c) 2017 François Chollet
#
# Permission is hereby granted, free of charge, to any person obtaining a
# copy of this software and associated documentation files (the "Software"),
# to deal in the Software without restriction, including without limitation
# the rights to use, copy, modify, merge, publish, distribute, sublicense,
# and/or sell copies of the Software, and to permit persons to whom the
# Software is furnished to do so, subject to the following conditions:
#
# The above copyright notice and this permission notice shall be included in
# all copies or substantial portions of the Software.
#
# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
# THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
# FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
# DEALINGS IN THE SOFTWARE.