Pemrosesan teks dan bahasa alami dengan TensorFlow, Pemrosesan teks dan bahasa alami dengan TensorFlow

Sebelum Anda dapat melatih model pada data teks, biasanya Anda perlu memproses (atau melakukan praproses) teks. Dalam banyak kasus, teks perlu dibuat token dan dibuat vektor sebelum dapat dimasukkan ke model, dan dalam beberapa kasus teks memerlukan langkah pemrosesan awal tambahan seperti normalisasi dan pemilihan fitur.

Setelah teks diproses menjadi format yang sesuai, Anda dapat menggunakannya dalam alur kerja pemrosesan bahasa alami (NLP) seperti klasifikasi teks, pembuatan teks, peringkasan, dan terjemahan.

TensorFlow menyediakan dua pustaka untuk pemrosesan teks dan bahasa alami: KerasNLP ( GitHub ) dan TensorFlow Text ( GitHub ).

KerasNLP adalah perpustakaan pemodelan NLP tingkat tinggi yang mencakup semua model berbasis transformator terbaru serta utilitas tokenisasi tingkat rendah. Ini adalah solusi yang disarankan untuk sebagian besar kasus penggunaan NLP. Dibangun di Teks TensorFlow, KerasNLP mengabstraksi operasi pemrosesan teks tingkat rendah menjadi API yang dirancang untuk kemudahan penggunaan. Namun jika Anda memilih untuk tidak bekerja dengan Keras API, atau Anda memerlukan akses ke operasi pemrosesan teks tingkat rendah, Anda dapat menggunakan Teks TensorFlow secara langsung.

KerasNLP

Cara termudah untuk mulai memproses teks di TensorFlow adalah dengan menggunakan KerasNLP . KerasNLP adalah pustaka pemrosesan bahasa alami yang mendukung alur kerja yang dibangun dari komponen modular yang memiliki bobot dan arsitektur prasetel yang canggih. Anda dapat menggunakan komponen KerasNLP dengan konfigurasi out-of-the-box mereka. Jika Anda membutuhkan lebih banyak kontrol, Anda dapat dengan mudah menyesuaikan komponen. KerasNLP menyediakan komputasi dalam grafik untuk semua alur kerja sehingga Anda dapat mengharapkan produksi yang mudah menggunakan ekosistem TensorFlow.

KerasNLP berisi implementasi end-to-end dari arsitektur model populer seperti BERT dan FNet . Dengan menggunakan model, lapisan, dan tokenizer KerasNLP, Anda dapat menyelesaikan banyak alur kerja NLP yang canggih, termasuk terjemahan mesin , pembuatan teks , klasifikasi teks , dan pelatihan model transformator .

KerasNLP adalah perpanjangan dari inti Keras API, dan setiap modul KerasNLP tingkat tinggi adalah Layer atau Model . Jika Anda sudah familiar dengan Keras, Anda sudah memahami sebagian besar KerasNLP.

Teks TensorFlow

KerasNLP menyediakan modul pemrosesan teks tingkat tinggi yang tersedia sebagai lapisan atau model. Jika memerlukan akses ke alat tingkat rendah, Anda dapat menggunakan TensorFlow Text . TensorFlow Text menyediakan operasi dan pustaka untuk membantu Anda bekerja dengan dokumen dan string teks mentah. TensorFlow Text dapat melakukan preprocessing secara teratur yang diperlukan oleh model berbasis teks, dan juga menyertakan fitur lain yang berguna untuk pemodelan urutan.

Menggunakan Teks TensorFlow, Anda dapat melakukan hal berikut:

  • Terapkan tokenizer kaya fitur yang dapat membagi string pada spasi putih, memisahkan kata dan tanda baca, dan mengembalikan offset byte dengan token, sehingga Anda tahu di mana string dapat ditemukan di teks sumber.
  • Periksa apakah token cocok dengan pola string yang ditentukan. Anda dapat memeriksa kapitalisasi, tanda baca, data numerik, dan fitur token lainnya.
  • Gabungkan token menjadi n-gram.
  • Memproses teks dalam grafik TensorFlow, sehingga tokenisasi selama pelatihan cocok dengan tokenisasi pada inferensi.

Mulai dari mana

Sumber daya berikut akan membantu Anda memulai pemrosesan teks TensorFlow: