TensorFlow-এর জন্য টেক্সট প্রসেসিং টুল

TensorFlow পাঠ্য এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য দুটি লাইব্রেরি প্রদান করে: KerasNLP এবং TensorFlow পাঠ্য। KerasNLP একটি উচ্চ-স্তরের প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) লাইব্রেরি যা আধুনিক ট্রান্সফরমার-ভিত্তিক মডেলগুলির পাশাপাশি নিম্ন-স্তরের টোকেনাইজেশন ইউটিলিটিগুলি অন্তর্ভুক্ত করে। এটি বেশিরভাগ এনএলপি ব্যবহারের ক্ষেত্রে প্রস্তাবিত সমাধান। টেনসরফ্লো টেক্সটে নির্মিত, কেরাসএনএলপি নিম্ন-স্তরের পাঠ্য প্রক্রিয়াকরণ ক্রিয়াকলাপগুলিকে একটি API-তে বিমূর্ত করে যা ব্যবহারের সহজতার জন্য ডিজাইন করা হয়েছে। কিন্তু আপনি যদি Keras API-এর সাথে কাজ না করতে পছন্দ করেন, অথবা আপনার নিম্ন-স্তরের টেক্সট প্রসেসিং অপ্স-এ অ্যাক্সেসের প্রয়োজন হয়, আপনি সরাসরি টেনসরফ্লো টেক্সট ব্যবহার করতে পারেন।

কেরাসএনএলপি

import keras_nlp
import tensorflow_datasets as tfds

imdb_train, imdb_test = tfds.load(
  "imdb_reviews",
  split=["train", "test"],
  as_supervised=True,
  batch_size=16,
)
# Load a BERT model.
classifier = keras_nlp.models.BertClassifier.from_preset("bert_base_en_uncased")
# Fine-tune on IMDb movie reviews.
classifier.fit(imdb_train, validation_data=imdb_test)
# Predict two new examples.
classifier.predict(["What an amazing movie!", "A total waste of my time."])
GitHub-এ কুইকস্টার্ট দেখুন।

TensorFlow-এ পাঠ্য প্রক্রিয়াকরণ শুরু করার সবচেয়ে সহজ উপায় হল KerasNLP ব্যবহার করা। KerasNLP হল একটি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ লাইব্রেরি যা অত্যাধুনিক প্রিসেট ওজন এবং আর্কিটেকচার রয়েছে এমন মডুলার উপাদানগুলি থেকে তৈরি ওয়ার্কফ্লোকে সমর্থন করে৷ আপনি কেরাসএনএলপি উপাদানগুলি তাদের আউট-অফ-দ্য-বক্স কনফিগারেশনের সাথে ব্যবহার করতে পারেন। আপনার যদি আরও নিয়ন্ত্রণের প্রয়োজন হয়, আপনি সহজেই উপাদানগুলি কাস্টমাইজ করতে পারেন। KerasNLP সমস্ত কর্মপ্রবাহের জন্য ইন-গ্রাফ গণনার উপর জোর দেয় যাতে আপনি TensorFlow ইকোসিস্টেম ব্যবহার করে সহজে উৎপাদনের আশা করতে পারেন।

KerasNLP হল মূল Keras API-এর একটি এক্সটেনশন, এবং সমস্ত উচ্চ-স্তরের KerasNLP মডিউল হল স্তর বা মডেল৷ আপনি যদি কেরাসের সাথে পরিচিত হন তবে আপনি ইতিমধ্যেই কেরাসএনএলপির বেশিরভাগ বুঝতে পেরেছেন।

আরও জানতে, KerasNLP দেখুন।

টেনসরফ্লো টেক্সট

import tensorflow as tf
import tensorflow_text as tf_text

def preprocess(vocab_lookup_table, example_text):

  # Normalize text
  tf_text.normalize_utf8(example_text)

  # Tokenize into words
  word_tokenizer = tf_text.WhitespaceTokenizer()
  tokens = word_tokenizer.tokenize(example_text)

  # Tokenize into subwords
  subword_tokenizer = tf_text.WordpieceTokenizer(
       vocab_lookup_table, token_out_type=tf.int64)
  subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1)

  # Apply padding
  padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16)
  return padded_inputs
একটি নোটবুকে চালান

KerasNLP উচ্চ-স্তরের পাঠ্য প্রক্রিয়াকরণ মডিউল সরবরাহ করে যা স্তর বা মডেল হিসাবে উপলব্ধ। আপনার যদি নিম্ন-স্তরের সরঞ্জামগুলিতে অ্যাক্সেসের প্রয়োজন হয়, আপনি TensorFlow পাঠ্য ব্যবহার করতে পারেন। টেন্সরফ্লো টেক্সট আপনাকে অপস এবং লাইব্রেরির একটি সমৃদ্ধ সংগ্রহ প্রদান করে যাতে আপনি টেক্সট আকারে ইনপুট যেমন কাঁচা টেক্সট স্ট্রিং বা ডকুমেন্টের সাথে কাজ করতে সাহায্য করেন। এই লাইব্রেরিগুলি পাঠ্য-ভিত্তিক মডেলগুলির দ্বারা নিয়মিত প্রয়োজনীয় প্রিপ্রসেসিং সম্পাদন করতে পারে এবং সিকোয়েন্স মডেলিংয়ের জন্য দরকারী অন্যান্য বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করতে পারে।

আপনি আপনার নিউরাল নেটে ইনপুট হিসাবে TensorFlow গ্রাফের ভিতর থেকে শক্তিশালী সিনট্যাকটিক এবং শব্দার্থিক পাঠ্য বৈশিষ্ট্যগুলি বের করতে পারেন।

TensorFlow গ্রাফের সাথে প্রিপ্রসেসিংকে একীভূত করা নিম্নলিখিত সুবিধাগুলি প্রদান করে:

  • পাঠ্যের সাথে কাজ করার জন্য একটি বড় টুলকিট সুবিধা দেয়
  • প্রশিক্ষণ, মূল্যায়ন এবং লঞ্চের মাধ্যমে সমস্যা সংজ্ঞা থেকে প্রকল্পগুলিকে সমর্থন করার জন্য TensorFlow সরঞ্জামগুলির একটি বড় স্যুটের সাথে একীকরণের অনুমতি দেয়
  • পরিবেশন করার সময় জটিলতা হ্রাস করে এবং প্রশিক্ষণ-সার্ভিং স্কু প্রতিরোধ করে

উপরোক্ত ছাড়াও, অনুমানে টোকেনাইজেশন বা প্রি-প্রসেসিং স্ক্রিপ্টগুলি পরিচালনা করার চেয়ে প্রশিক্ষণে টোকেনাইজেশন সম্পর্কে আপনাকে চিন্তা করার দরকার নেই।

মডেল আর্কিটেকচার
শিখুন কিভাবে টেক্সটে এন্ড-টু-এন্ড BERT প্রিপ্রসেসিং করতে হয়।
শিখুন কিভাবে পাঠ্য থেকে সাবওয়ার্ড শব্দভান্ডার তৈরি করতে হয়।
শিখুন কিভাবে BERT মডেলের সাথে পাঠ্যকে শ্রেণীবদ্ধ করতে হয়।
পুনরাবৃত্ত নিউরাল নেটওয়ার্ক ব্যবহার করে পাঠ্যকে শ্রেণীবদ্ধ করুন।
পাঠ্য অনুবাদ করতে ট্রান্সফরমার মডেল ব্যবহার করুন।
শিখুন কিভাবে ক্রম-থেকে-সিকোয়েন্স মডেলের সাথে পাঠ্য অনুবাদ করতে হয়।