Panduan pemrosesan teks TensorFlow

Panduan pemrosesan teks TensorFlow mendokumentasikan pustaka dan alur kerja untuk pemrosesan bahasa alami (NLP) dan memperkenalkan konsep penting untuk bekerja dengan teks.

KerasNLP

KerasNLP adalah pustaka pemrosesan bahasa alami (NLP) tingkat tinggi yang mencakup semua model berbasis Transformer terbaru serta utilitas tokenisasi tingkat rendah. Ini adalah solusi yang disarankan untuk sebagian besar kasus penggunaan NLP.

  • Memulai dengan KerasNLP : Pelajari KerasNLP dengan melakukan analisis sentimen pada tingkat kompleksitas yang progresif, mulai dari menggunakan model yang telah dilatih sebelumnya hingga membangun Transformer Anda sendiri dari awal.

tf.strings

Modul tf.strings menyediakan operasi untuk bekerja dengan Tensor string.

  • String Unicode : Mewakili string Unicode di TensorFlow dan memanipulasinya menggunakan Unicode yang setara dengan operasi string standar.

Teks TensorFlow

Jika memerlukan akses ke alat pemrosesan teks tingkat rendah, Anda dapat menggunakan Teks TensorFlow. TensorFlow Text menyediakan kumpulan operasi dan pustaka untuk membantu Anda bekerja dengan masukan dalam bentuk teks seperti string teks mentah atau dokumen.

Pra-pemrosesan

  • BERT Preprocessing dengan TF Text : Gunakan operasi preprocessing Teks TensorFlow untuk mengubah data teks menjadi input untuk BERT.
  • Tokenisasi dengan Teks TF : Pahami opsi tokenisasi yang disediakan oleh Teks TensorFlow. Pelajari kapan Anda mungkin ingin menggunakan satu opsi di atas yang lain, dan bagaimana tokenizer ini dipanggil dari dalam model Anda.
  • Tokenizer subkata : Menghasilkan kosa kata subkata dari kumpulan data, dan menggunakannya untuk membuat text.BertTokenizer dari kosa kata.

Model TensorFlow – NLP

Model TensorFlow - Pustaka NLP menyediakan Keras primitif yang dapat dirakit menjadi model berbasis Transformer, dan kelas perancah yang memungkinkan eksperimen mudah dengan arsitektur baru.