TensorFlow-এর জন্য টেক্সট প্রসেসিং টুল

import tensorflow as tf
import tensorflow_text as tf_text

def preprocess(vocab_lookup_table, example_text):

  # Normalize text
  tf_text.normalize_utf8(example_text)

  # Tokenize into words
  word_tokenizer = tf_text.WhitespaceTokenizer()
  tokens = word_tokenizer.tokenize(example_text)

  # Tokenize into subwords
  subword_tokenizer = tf_text.WordpieceTokenizer(
       vocab_lookup_table, token_out_type=tf.int64)
  subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1)

  # Apply padding
  padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16)
  return padded_inputs
একটি নোটবুকে চালান

টেন্সরফ্লো আপনাকে অপারেটিং সিস্টেম এবং লাইব্রেরির একটি সমৃদ্ধ সংগ্রহ প্রদান করে যা আপনাকে পাঠ্য আকারে ইনপুট যেমন কাঁচা পাঠ্য স্ট্রিং বা নথির সাথে কাজ করতে সহায়তা করে। এই লাইব্রেরিগুলি পাঠ্য-ভিত্তিক মডেলগুলির দ্বারা নিয়মিত প্রয়োজনীয় প্রিপ্রসেসিং সম্পাদন করতে পারে এবং সিকোয়েন্স মডেলিংয়ের জন্য দরকারী অন্যান্য বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করে।

আপনি আপনার নিউরাল নেটে ইনপুট হিসাবে TensorFlow গ্রাফের ভিতর থেকে শক্তিশালী সিনট্যাকটিক এবং শব্দার্থিক পাঠ্য বৈশিষ্ট্যগুলি বের করতে পারেন।

TensorFlow গ্রাফের সাথে প্রিপ্রসেসিংকে একীভূত করা নিম্নলিখিত সুবিধাগুলি প্রদান করে:

  • পাঠ্যের সাথে কাজ করার জন্য একটি বড় টুলকিট সুবিধা দেয়
  • প্রশিক্ষণ, মূল্যায়ন এবং লঞ্চের মাধ্যমে সমস্যার সংজ্ঞা থেকে প্রকল্পগুলিকে সমর্থন করার জন্য টেনসরফ্লো সরঞ্জামগুলির একটি বড় স্যুটের সাথে একীকরণের অনুমতি দেয়
  • পরিবেশন করার সময় জটিলতা হ্রাস করে এবং প্রশিক্ষণ-সার্ভিং স্ক্যু প্রতিরোধ করে

উপরোক্ত ছাড়াও, অনুমানে টোকেনাইজেশন বা প্রি-প্রসেসিং স্ক্রিপ্ট পরিচালনার চেয়ে প্রশিক্ষণে টোকেনাইজেশনের বিষয়ে আপনাকে চিন্তা করার দরকার নেই।

মডেল আর্কিটেকচার
টেক্সটে এন্ড-টু-এন্ড BERT প্রিপ্রসেসিং কিভাবে সম্পাদন করতে হয় তা শিখুন।
কিভাবে পাঠ্য থেকে সাবওয়ার্ড শব্দভান্ডার তৈরি করতে হয় তা শিখুন।
BERT মডেলের সাথে পাঠ্যকে কীভাবে শ্রেণিবদ্ধ করতে হয় তা শিখুন।
পুনরাবৃত্ত নিউরাল নেটওয়ার্ক ব্যবহার করে পাঠ্য শ্রেণীবদ্ধ করুন।
টেক্সট অনুবাদ করতে ট্রান্সফরমার মডেল ব্যবহার করুন।
সিকোয়েন্স-টু-সিকোয়েন্স মডেল সহ পাঠ্য অনুবাদ করতে শিখুন।