Assistez au symposium Women in ML le 7 décembre Inscrivez-vous maintenant
Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Outils de traitement de texte pour TensorFlow

import tensorflow as tf
import tensorflow_text as tf_text

def preprocess(vocab_lookup_table, example_text):

  # Normalize text
  tf_text.normalize_utf8(example_text)

  # Tokenize into words
  word_tokenizer = tf_text.WhitespaceTokenizer()
  tokens = word_tokenizer.tokenize(example_text)

  # Tokenize into subwords
  subword_tokenizer = tf_text.WordpieceTokenizer(
       vocab_lookup_table, token_out_type=tf.int64)
  subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1)

  # Apply padding
  padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16)
  return padded_inputs
Exécuter dans un ordinateur portable

TensorFlow vous fournit une riche collection d'opérations et de bibliothèques pour vous aider à travailler avec des entrées sous forme de texte, telles que des chaînes de texte brutes ou des documents. Ces bibliothèques peuvent effectuer le prétraitement régulièrement requis par les modèles textuels et incluent d'autres fonctionnalités utiles pour la modélisation de séquences.

Vous pouvez extraire de puissantes fonctionnalités textuelles syntaxiques et sémantiques de l'intérieur du graphique TensorFlow en tant qu'entrée de votre réseau neuronal.

L'intégration du prétraitement au graphe TensorFlow offre les avantages suivants :

  • Facilite une grande boîte à outils pour travailler avec du texte
  • Permet l'intégration avec une large suite d'outils Tensorflow pour prendre en charge les projets depuis la définition du problème jusqu'à la formation, l'évaluation et le lancement
  • Réduit la complexité au moment du service et empêche le biais formation-service

En plus de ce qui précède, vous n'avez pas à vous soucier du fait que la tokenisation dans la formation soit différente de la tokenisation lors de l'inférence, ou de la gestion des scripts de prétraitement.

Architectures modèles
Découvrez comment effectuer un prétraitement BERT de bout en bout sur du texte.
Apprenez à générer des vocabulaires de sous-mots à partir de texte.
Apprenez à classer du texte avec le modèle BERT.
Classer le texte à l'aide des réseaux de neurones récurrents.
Utilisez les modèles Transformer pour traduire du texte.
Apprenez à traduire du texte avec des modèles séquence à séquence.