Classification du texte avec critiques de films

Ce cahier classe les critiques de films comme positives ou négatives en utilisant le texte de la critique. Ceci est un exemple de classification binaire - ou à deux classes -, un type important et largement applicable de problème d'apprentissage automatique.

Nous utiliserons l' ensemble de données IMDB qui contient le texte de 50 000 critiques de films de la base de données de films Internet . Celles-ci sont divisées en 25 000 évaluations pour la formation et 25 000 évaluations pour les tests. Les ensembles de formation et de test sont équilibrés , ce qui signifie qu'ils contiennent un nombre égal d'avis positifs et négatifs.

Ce bloc-notes utilise tf.keras , une API de haut niveau pour créer et entraîner des modèles dans TensorFlow, et TensorFlow Hub , une bibliothèque et une plate-forme d'apprentissage par transfert. Pour un didacticiel de classification de texte plus avancé utilisant tf.keras , consultez le Guide de classification de texte tf.keras .

import numpy as np

import tensorflow as tf
import tensorflow_hub as hub
import tensorflow_datasets as tfds

import matplotlib.pyplot as plt

print("Version: ", tf.__version__)
print("Eager mode: ", tf.executing_eagerly())
print("Hub version: ", hub.__version__)
print("GPU is", "available" if tf.config.list_physical_devices('GPU') else "NOT AVAILABLE")
Version:  2.3.1
Eager mode:  True
Hub version:  0.9.0
GPU is available

Téléchargez le jeu de données IMDB

L'ensemble de données IMDB est disponible sur les ensembles de données TensorFlow . Le code suivant télécharge le jeu de données IMDB sur votre ordinateur (ou le runtime colab):

train_data, test_data = tfds.load(name="imdb_reviews", split=["train", "test"], 
                                  batch_size=-1, as_supervised=True)

train_examples, train_labels = tfds.as_numpy(train_data)
test_examples, test_labels = tfds.as_numpy(test_data)
Explorez les données

Prenons un moment pour comprendre le format des données. Chaque exemple est une phrase représentant la critique du film et une étiquette correspondante. La phrase n'est en aucun cas prétraitée. Le libellé est une valeur entière de 0 ou 1, où 0 est un avis négatif et 1 est un avis positif.

print("Training entries: {}, test entries: {}".format(len(train_examples), len(test_examples)))
Training entries: 25000, test entries: 25000

Imprimons les 10 premiers exemples.

Imprimons également les 10 premières étiquettes.

array([0, 0, 0, 1, 1, 1, 0, 0, 0, 0])

Construisez le modèle

Le réseau neuronal est créé en empilant des couches - cela nécessite trois décisions architecturales principales:

  • Comment représenter le texte?
  • Combien de couches utiliser dans le modèle?
  • Combien d' unités cachées utiliser pour chaque couche?

Dans cet exemple, les données d'entrée sont constituées de phrases. Les étiquettes à prédire sont 0 ou 1.

Une façon de représenter le texte consiste à convertir des phrases en vecteurs d'incorporation. Nous pouvons utiliser une incorporation de texte pré-entraînée comme première couche, ce qui aura deux avantages:

  • nous n'avons pas à nous soucier du prétraitement du texte,
  • nous pouvons bénéficier de l'apprentissage par transfert.

Pour cet exemple, nous utiliserons un modèle de TensorFlow Hub appelé google / tf2-preview / gnews-swivel-20dim / 1 .

Il existe trois autres modèles à tester dans le cadre de ce tutoriel:

Créons d'abord une couche Keras qui utilise un modèle TensorFlow Hub pour incorporer les phrases, et essayons-la sur quelques exemples d'entrée. Notez que la forme de sortie des embeddings produits est un attendu: (num_examples, embedding_dimension) .

model = "https://tfhub.dev/google/tf2-preview/gnews-swivel-20dim/1"
hub_layer = hub.KerasLayer(model, output_shape=[20], input_shape=[], 
                           dtype=tf.string, trainable=True)
<tf.Tensor: shape=(3, 20), dtype=float32, numpy=
array([[ 1.765786  , -3.882232  ,  3.9134233 , -1.5557289 , -3.3362343 ,
        -1.7357955 , -1.9954445 ,  1.2989551 ,  5.081598  , -1.1041286 ,
        -2.0503852 , -0.72675157, -0.65675956,  0.24436149, -3.7208383 ,
         2.0954835 ,  2.2969332 , -2.0689783 , -2.9489717 , -1.1315987 ],
       [ 1.8804485 , -2.5852382 ,  3.4066997 ,  1.0982676 , -4.056685  ,
        -4.891284  , -2.785554  ,  1.3874227 ,  3.8476458 , -0.9256538 ,
        -1.896706  ,  1.2113281 ,  0.11474707,  0.76209456, -4.8791065 ,
         2.906149  ,  4.7087674 , -2.3652055 , -3.5015898 , -1.6390051 ],
       [ 0.71152234, -0.6353217 ,  1.7385626 , -1.1168286 , -0.5451594 ,
        -1.1808156 ,  0.09504455,  1.4653089 ,  0.66059524,  0.79308075,
        -2.2268345 ,  0.07446612, -1.4075904 , -0.70645386, -1.907037  ,
         1.4419787 ,  1.9551861 , -0.42660055, -2.8022065 ,  0.43727064]],

Construisons maintenant le modèle complet:

model = tf.keras.Sequential()
model.add(tf.keras.layers.Dense(16, activation='relu'))

Model: "sequential"
Layer (type)                 Output Shape              Param #   
keras_layer (KerasLayer)     (None, 20)                400020    
dense (Dense)                (None, 16)                336       
dense_1 (Dense)              (None, 1)                 17        
Total params: 400,373
Trainable params: 400,373
Non-trainable params: 0

Les couches sont empilées séquentiellement pour construire le classificateur:

  1. La première couche est une couche TensorFlow Hub. Cette couche utilise un modèle enregistré pré-entraîné pour mapper une phrase dans son vecteur d'incorporation. Le modèle que nous utilisons ( google / tf2-preview / gnews-swivel-20dim / 1 ) divise la phrase en jetons, intègre chaque jeton puis combine l'incorporation. Les dimensions résultantes sont: (num_examples, embedding_dimension) .
  2. Ce vecteur de sortie de longueur fixe est acheminé via une couche entièrement connectée ( Dense ) avec 16 unités cachées.
  3. La dernière couche est étroitement connectée avec un seul nœud de sortie. Cela génère des logits: le log-odds de la vraie classe, selon le modèle.

Unités cachées

Le modèle ci-dessus a deux couches intermédiaires ou "cachées", entre l'entrée et la sortie. Le nombre de sorties (unités, nœuds ou neurones) est la dimension de l'espace de représentation pour la couche. En d'autres termes, la quantité de liberté accordée au réseau lors de l'apprentissage d'une représentation interne.

Si un modèle a plus d'unités cachées (un espace de représentation de plus haute dimension) et / ou plusieurs couches, le réseau peut apprendre des représentations plus complexes. Cependant, cela rend le réseau plus coûteux en calcul et peut conduire à l'apprentissage de modèles indésirables - des modèles qui améliorent les performances sur les données d'entraînement mais pas sur les données de test. C'est ce qu'on appelle le surajustement , et nous l'explorerons plus tard.

Fonction de perte et optimiseur

Un modèle a besoin d'une fonction de perte et d'un optimiseur pour l'entraînement. Puisqu'il s'agit d'un problème de classification binaire et que le modèle génère une probabilité (une couche binary_crossentropy avec une activation sigmoïde), nous utiliserons la fonction de perte binary_crossentropy .

Ce n'est pas le seul choix pour une fonction de perte, vous pouvez, par exemple, choisir mean_squared_error . Mais, en général, binary_crossentropy est meilleur pour traiter les probabilités - il mesure la «distance» entre les distributions de probabilité, ou dans notre cas, entre la distribution de la vérité terrain et les prédictions.

Plus tard, lorsque nous explorerons les problèmes de régression (par exemple, pour prédire le prix d'une maison), nous verrons comment utiliser une autre fonction de perte appelée erreur quadratique moyenne.

Maintenant, configurez le modèle pour utiliser un optimiseur et une fonction de perte:

              metrics=[tf.metrics.BinaryAccuracy(threshold=0.0, name='accuracy')])

Créer un jeu de validation

Lors de l'entraînement, nous voulons vérifier l'exactitude du modèle sur des données qu'il n'a pas vues auparavant. Créez un jeu de validation en séparant 10 000 exemples des données d'entraînement d'origine. (Pourquoi ne pas utiliser l'ensemble de test maintenant? Notre objectif est de développer et d'ajuster notre modèle en utilisant uniquement les données d'entraînement, puis d'utiliser les données de test une seule fois pour évaluer notre précision).

x_val = train_examples[:10000]
partial_x_train = train_examples[10000:]

y_val = train_labels[:10000]
partial_y_train = train_labels[10000:]

Former le modèle

Entraînez le modèle pour 40 époques en mini-lots de 512 échantillons. Il s'agit de 40 itérations sur tous les échantillons des tenseurs x_train et y_train . Pendant l'entraînement, surveillez la perte et la précision du modèle sur les 10000 échantillons de l'ensemble de validation:

history = model.fit(partial_x_train,
                    validation_data=(x_val, y_val),
Epoch 1/40
30/30 [==============================] - 2s 54ms/step - loss: 0.8047 - accuracy: 0.4633 - val_loss: 0.6867 - val_accuracy: 0.5756
Epoch 2/40
30/30 [==============================] - 1s 48ms/step - loss: 0.6467 - accuracy: 0.6240 - val_loss: 0.6269 - val_accuracy: 0.6545
Epoch 3/40
30/30 [==============================] - 1s 48ms/step - loss: 0.6015 - accuracy: 0.6789 - val_loss: 0.5927 - val_accuracy: 0.6891
Epoch 4/40
30/30 [==============================] - 1s 47ms/step - loss: 0.5655 - accuracy: 0.7139 - val_loss: 0.5610 - val_accuracy: 0.7193
Epoch 5/40
30/30 [==============================] - 1s 47ms/step - loss: 0.5293 - accuracy: 0.7425 - val_loss: 0.5294 - val_accuracy: 0.7438
Epoch 6/40
30/30 [==============================] - 1s 48ms/step - loss: 0.4923 - accuracy: 0.7729 - val_loss: 0.4983 - val_accuracy: 0.7686
Epoch 7/40
30/30 [==============================] - 1s 47ms/step - loss: 0.4561 - accuracy: 0.7993 - val_loss: 0.4700 - val_accuracy: 0.7880
Epoch 8/40
30/30 [==============================] - 1s 47ms/step - loss: 0.4216 - accuracy: 0.8195 - val_loss: 0.4423 - val_accuracy: 0.8013
Epoch 9/40
30/30 [==============================] - 1s 48ms/step - loss: 0.3896 - accuracy: 0.8378 - val_loss: 0.4190 - val_accuracy: 0.8155
Epoch 10/40
30/30 [==============================] - 1s 47ms/step - loss: 0.3599 - accuracy: 0.8533 - val_loss: 0.3985 - val_accuracy: 0.8245
Epoch 11/40
30/30 [==============================] - 1s 47ms/step - loss: 0.3335 - accuracy: 0.8658 - val_loss: 0.3812 - val_accuracy: 0.8341
Epoch 12/40
30/30 [==============================] - 1s 48ms/step - loss: 0.3103 - accuracy: 0.8758 - val_loss: 0.3666 - val_accuracy: 0.8417
Epoch 13/40
30/30 [==============================] - 1s 47ms/step - loss: 0.2887 - accuracy: 0.8869 - val_loss: 0.3545 - val_accuracy: 0.8501
Epoch 14/40
30/30 [==============================] - 1s 47ms/step - loss: 0.2688 - accuracy: 0.8969 - val_loss: 0.3447 - val_accuracy: 0.8537
Epoch 15/40
30/30 [==============================] - 1s 48ms/step - loss: 0.2518 - accuracy: 0.9049 - val_loss: 0.3365 - val_accuracy: 0.8576
Epoch 16/40
30/30 [==============================] - 1s 47ms/step - loss: 0.2353 - accuracy: 0.9138 - val_loss: 0.3291 - val_accuracy: 0.8642
Epoch 17/40
30/30 [==============================] - 1s 47ms/step - loss: 0.2204 - accuracy: 0.9209 - val_loss: 0.3246 - val_accuracy: 0.8671
Epoch 18/40
30/30 [==============================] - 1s 48ms/step - loss: 0.2070 - accuracy: 0.9271 - val_loss: 0.3198 - val_accuracy: 0.8685
Epoch 19/40
30/30 [==============================] - 1s 48ms/step - loss: 0.1938 - accuracy: 0.9333 - val_loss: 0.3174 - val_accuracy: 0.8703
Epoch 20/40
30/30 [==============================] - 1s 47ms/step - loss: 0.1821 - accuracy: 0.9377 - val_loss: 0.3156 - val_accuracy: 0.8721
Epoch 21/40
30/30 [==============================] - 1s 47ms/step - loss: 0.1716 - accuracy: 0.9426 - val_loss: 0.3132 - val_accuracy: 0.8729
Epoch 22/40
30/30 [==============================] - 1s 48ms/step - loss: 0.1609 - accuracy: 0.9472 - val_loss: 0.3125 - val_accuracy: 0.8729
Epoch 23/40
30/30 [==============================] - 1s 47ms/step - loss: 0.1508 - accuracy: 0.9511 - val_loss: 0.3132 - val_accuracy: 0.8733
Epoch 24/40
30/30 [==============================] - 1s 47ms/step - loss: 0.1422 - accuracy: 0.9551 - val_loss: 0.3144 - val_accuracy: 0.8737
Epoch 25/40
30/30 [==============================] - 1s 47ms/step - loss: 0.1330 - accuracy: 0.9585 - val_loss: 0.3159 - val_accuracy: 0.8739
Epoch 26/40
30/30 [==============================] - 1s 47ms/step - loss: 0.1256 - accuracy: 0.9613 - val_loss: 0.3190 - val_accuracy: 0.8742
Epoch 27/40
30/30 [==============================] - 1s 47ms/step - loss: 0.1173 - accuracy: 0.9643 - val_loss: 0.3210 - val_accuracy: 0.8735
Epoch 28/40
30/30 [==============================] - 1s 47ms/step - loss: 0.1100 - accuracy: 0.9681 - val_loss: 0.3252 - val_accuracy: 0.8730
Epoch 29/40
30/30 [==============================] - 1s 47ms/step - loss: 0.1029 - accuracy: 0.9709 - val_loss: 0.3290 - val_accuracy: 0.8730
Epoch 30/40
30/30 [==============================] - 1s 47ms/step - loss: 0.0965 - accuracy: 0.9738 - val_loss: 0.3335 - val_accuracy: 0.8714
Epoch 31/40
30/30 [==============================] - 1s 47ms/step - loss: 0.0903 - accuracy: 0.9760 - val_loss: 0.3375 - val_accuracy: 0.8726
Epoch 32/40
30/30 [==============================] - 1s 47ms/step - loss: 0.0848 - accuracy: 0.9777 - val_loss: 0.3440 - val_accuracy: 0.8722
Epoch 33/40
30/30 [==============================] - 1s 47ms/step - loss: 0.0795 - accuracy: 0.9803 - val_loss: 0.3493 - val_accuracy: 0.8711
Epoch 34/40
30/30 [==============================] - 1s 47ms/step - loss: 0.0739 - accuracy: 0.9821 - val_loss: 0.3550 - val_accuracy: 0.8707
Epoch 35/40
30/30 [==============================] - 1s 47ms/step - loss: 0.0688 - accuracy: 0.9841 - val_loss: 0.3601 - val_accuracy: 0.8715
Epoch 36/40
30/30 [==============================] - 1s 47ms/step - loss: 0.0642 - accuracy: 0.9859 - val_loss: 0.3668 - val_accuracy: 0.8703
Epoch 37/40
30/30 [==============================] - 1s 47ms/step - loss: 0.0597 - accuracy: 0.9877 - val_loss: 0.3740 - val_accuracy: 0.8702
Epoch 38/40
30/30 [==============================] - 1s 47ms/step - loss: 0.0560 - accuracy: 0.9884 - val_loss: 0.3806 - val_accuracy: 0.8684
Epoch 39/40
30/30 [==============================] - 1s 47ms/step - loss: 0.0518 - accuracy: 0.9903 - val_loss: 0.3880 - val_accuracy: 0.8679
Epoch 40/40
30/30 [==============================] - 1s 48ms/step - loss: 0.0482 - accuracy: 0.9918 - val_loss: 0.3965 - val_accuracy: 0.8678

Évaluer le modèle

Et voyons comment le modèle fonctionne. Deux valeurs seront renvoyées. Perte (un nombre qui représente notre erreur, les valeurs inférieures sont meilleures) et précision.

results = model.evaluate(test_data, test_labels)

782/782 [==============================] - 3s 4ms/step - loss: 0.4243 - accuracy: 0.8542
[0.42429429292678833, 0.854200005531311]

Cette approche assez naïve atteint une précision d'environ 87%. Avec des approches plus avancées, le modèle devrait se rapprocher de 95%.

Créez un graphique de précision et de perte au fil du temps

model.fit() retourne un objet History qui contient un dictionnaire avec tout ce qui s'est passé pendant l'entraînement:

history_dict = history.history
dict_keys(['loss', 'accuracy', 'val_loss', 'val_accuracy'])

Il y a quatre entrées: une pour chaque métrique surveillée pendant la formation et la validation. Nous pouvons les utiliser pour tracer la perte de formation et de validation à des fins de comparaison, ainsi que la précision de la formation et de la validation:

acc = history_dict['accuracy']
val_acc = history_dict['val_accuracy']
loss = history_dict['loss']
val_loss = history_dict['val_loss']

epochs = range(1, len(acc) + 1)

# "bo" is for "blue dot"
plt.plot(epochs, loss, 'bo', label='Training loss')
# b is for "solid blue line"
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')



plt.clf()   # clear figure

plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')



Dans ce graphique, les points représentent la perte et la précision de la formation, et les lignes pleines représentent la perte de validation et la précision.

Notez que la perte de formation diminue à chaque époque et que la précision de la formation augmente à chaque époque. Ceci est attendu lors de l'utilisation d'une optimisation de descente de gradient - cela doit minimiser la quantité souhaitée à chaque itération.

Ce n'est pas le cas pour la perte de validation et la précision - elles semblent culminer après une vingtaine d'époques. Voici un exemple de surajustement: le modèle fonctionne mieux sur les données d'entraînement que sur les données qu'il n'a jamais vues auparavant. Après ce point, le modèle sur-optimise et apprend des représentations spécifiques aux données d'entraînement qui ne se généralisent pas aux données de test.

Pour ce cas particulier, nous pourrions éviter le surapprentissage en arrêtant simplement l'entraînement après une vingtaine d'époques. Plus tard, vous verrez comment faire cela automatiquement avec un rappel.

