Помогают защитить Большой Барьерный Риф с TensorFlow на Kaggle Присоединяйтесь вызов

Инструменты обработки текста для TensorFlow

import tensorflow as tf
import tensorflow_text as tf_text

def preprocess(vocab_table, example_text):

  # Normalize text
  tf_text.normalize_utf8(example_text)

  # Tokenize into words
  word_tokenizer = tf_text.WhitespaceTokenizer()
  tokens = word_tokenizer.tokenize(example_text)

  # Tokenize into subwords
  subword_tokenizer = tf_text.WordpieceTokenizer(
       lookup_table, token_out_type=tf.int64)
  subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1)

  # Apply padding
  padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16)
  return padded_inputs
Run в ноутбук

TensorFlow предоставляет вам богатую коллекцию операций и библиотек, которые помогут вам работать с вводом в текстовой форме, например с необработанными текстовыми строками или документами. Эти библиотеки могут выполнять предварительную обработку, регулярно требуемую для текстовых моделей, и включают в себя другие функции, полезные для моделирования последовательности.

Вы можете извлекать мощные синтаксические и семантические текстовые функции из графа TensorFlow в качестве входных данных для вашей нейронной сети.

Интеграция предварительной обработки с графиком TensorFlow дает следующие преимущества:

  • Облегчает большой набор инструментов для работы с текстом
  • Обеспечивает интеграцию с большим набором инструментов Tensorflow для поддержки проектов от определения проблемы до обучения, оценки и запуска.
  • Снижает сложность при обслуживании и предотвращает перекос при обучении

В дополнение к вышесказанному вам не нужно беспокоиться о том, что токенизация при обучении будет отличаться от токенизации при выводе или управления сценариями предварительной обработки.

Модельные архитектуры
Узнайте, как выполнять сквозную предварительную обработку BERT для текста.
Узнайте, как создавать словари подслов из текста.
Узнайте, как классифицировать текст с помощью модели BERT.
Классифицируйте текст с помощью рекуррентных нейронных сетей.
Используйте модели Transformer для перевода текста.
Узнайте, как переводить текст с помощью моделей последовательностей.