Outils de traitement de texte pour TensorFlow
import tensorflow as tf import tensorflow_text as tf_text def preprocess(vocab_lookup_table, example_text): # Normalize text tf_text.normalize_utf8(example_text) # Tokenize into words word_tokenizer = tf_text.WhitespaceTokenizer() tokens = word_tokenizer.tokenize(example_text) # Tokenize into subwords subword_tokenizer = tf_text.WordpieceTokenizer( vocab_lookup_table, token_out_type=tf.int64) subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1) # Apply padding padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16) return padded_inputsExécuter dans un ordinateur portable
TensorFlow vous fournit une riche collection d'opérations et de bibliothèques pour vous aider à travailler avec des entrées sous forme de texte, telles que des chaînes de texte brutes ou des documents. Ces bibliothèques peuvent effectuer le prétraitement régulièrement requis par les modèles textuels et incluent d'autres fonctionnalités utiles pour la modélisation de séquences.
Vous pouvez extraire de puissantes fonctionnalités textuelles syntaxiques et sémantiques de l'intérieur du graphique TensorFlow en tant qu'entrée de votre réseau neuronal.
L'intégration du prétraitement au graphe TensorFlow offre les avantages suivants :
- Facilite une grande boîte à outils pour travailler avec du texte
- Permet l'intégration avec une large suite d'outils Tensorflow pour prendre en charge les projets depuis la définition du problème jusqu'à la formation, l'évaluation et le lancement
- Réduit la complexité au moment du service et empêche le biais formation-service
En plus de ce qui précède, vous n'avez pas à vous soucier du fait que la tokenisation dans la formation soit différente de la tokenisation lors de l'inférence, ou de la gestion des scripts de prétraitement.
