Panduan pemrosesan teks TensorFlow mendokumentasikan pustaka dan alur kerja untuk pemrosesan bahasa alami (NLP) dan memperkenalkan konsep penting untuk bekerja dengan teks.
KerasNLP
KerasNLP adalah pustaka pemrosesan bahasa alami (NLP) tingkat tinggi yang mencakup semua model berbasis Transformer terbaru serta utilitas tokenisasi tingkat rendah. Ini adalah solusi yang disarankan untuk sebagian besar kasus penggunaan NLP.
- Memulai dengan KerasNLP : Pelajari KerasNLP dengan melakukan analisis sentimen pada tingkat kompleksitas yang progresif, mulai dari menggunakan model yang telah dilatih sebelumnya hingga membangun Transformer Anda sendiri dari awal.
tf.strings
Modul tf.strings
menyediakan operasi untuk bekerja dengan Tensor string.
- String Unicode : Mewakili string Unicode di TensorFlow dan memanipulasinya menggunakan Unicode yang setara dengan operasi string standar.
Teks TensorFlow
Jika memerlukan akses ke alat pemrosesan teks tingkat rendah, Anda dapat menggunakan Teks TensorFlow. TensorFlow Text menyediakan kumpulan operasi dan pustaka untuk membantu Anda bekerja dengan masukan dalam bentuk teks seperti string teks mentah atau dokumen.
- Pengantar Teks TensorFlow : Pelajari cara menginstal Teks TensorFlow atau membuatnya dari sumber.
- Mengonversi operator Teks TensorFlow ke TensorFlow Lite : Mengonversi model Teks TensorFlow ke TensorFlow Lite untuk diterapkan ke perangkat seluler, tersemat, dan IoT.
Pra-pemrosesan
- BERT Preprocessing dengan TF Text : Gunakan operasi preprocessing Teks TensorFlow untuk mengubah data teks menjadi input untuk BERT.
- Tokenisasi dengan Teks TF : Pahami opsi tokenisasi yang disediakan oleh Teks TensorFlow. Pelajari kapan Anda mungkin ingin menggunakan satu opsi di atas yang lain, dan bagaimana tokenizer ini dipanggil dari dalam model Anda.
- Tokenizer subkata : Menghasilkan kosa kata subkata dari kumpulan data, dan menggunakannya untuk membuat
text.BertTokenizer
dari kosa kata.
Model TensorFlow – NLP
Model TensorFlow - Pustaka NLP menyediakan Keras primitif yang dapat dirakit menjadi model berbasis Transformer, dan kelas perancah yang memungkinkan eksperimen mudah dengan arsitektur baru.
- Pengantar Pustaka NLP Model TensorFlow : Buat model berbasis Transformer untuk tugas NLP umum termasuk prapelatihan, pelabelan rentang, dan klasifikasi menggunakan blok penyusun dari pustaka pemodelan NLP .
- Menyesuaikan Transformer Encoder : Sesuaikan
tfm.nlp.networks.EncoderScaffold
, scaffold jaringan encoder berbasis Transformer dua arah, untuk menggunakan arsitektur jaringan baru.