Присоединяйтесь к TensorFlow на Google I/O, 11-12 мая Зарегистрируйтесь сейчас

Инструменты обработки текста для TensorFlow

import tensorflow as tf
import tensorflow_text as tf_text

def preprocess(vocab_table, example_text):

  # Normalize text
  tf_text.normalize_utf8(example_text)

  # Tokenize into words
  word_tokenizer = tf_text.WhitespaceTokenizer()
  tokens = word_tokenizer.tokenize(example_text)

  # Tokenize into subwords
  subword_tokenizer = tf_text.WordpieceTokenizer(
       lookup_table, token_out_type=tf.int64)
  subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1)

  # Apply padding
  padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16)
  return padded_inputs
Запуск в

TensorFlow предоставляет вам богатую коллекцию операций и библиотек, которые помогут вам работать с вводом в текстовой форме, такой как необработанные текстовые строки или документы. Эти библиотеки могут выполнять предварительную обработку, обычно необходимую для текстовых моделей, и включают в себя другие функции, полезные для моделирования последовательностей.

Вы можете извлекать мощные синтаксические и семантические функции текста из графа TensorFlow в качестве входных данных для вашей нейронной сети.

Интеграция предварительной обработки с графом TensorFlow дает следующие преимущества:

  • Облегчает большой набор инструментов для работы с текстом
  • Обеспечивает интеграцию с большим набором инструментов Tensorflow для поддержки проектов от определения проблемы до обучения, оценки и запуска.
  • Снижает сложность подачи времени и предотвращает перекос между обучением и обслуживанием.

В дополнение к вышесказанному вам не нужно беспокоиться о том, что токенизация при обучении отличается от токенизации при выводе или управлении сценариями предварительной обработки.

Архитектуры моделей
Узнайте, как выполнить сквозную предварительную обработку BERT для текста.
Узнайте, как создавать словари подслов из текста.
Узнайте, как классифицировать текст с помощью модели BERT.
Классифицируйте текст с помощью рекуррентных нейронных сетей.
Используйте модели Transformer для перевода текста.
Узнайте, как переводить текст с помощью моделей последовательностей.