TensorFlow-এর জন্য টেক্সট প্রসেসিং টুল
TensorFlow পাঠ্য এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য দুটি লাইব্রেরি প্রদান করে: KerasNLP এবং TensorFlow পাঠ্য। KerasNLP একটি উচ্চ-স্তরের প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) লাইব্রেরি যা আধুনিক ট্রান্সফরমার-ভিত্তিক মডেলগুলির পাশাপাশি নিম্ন-স্তরের টোকেনাইজেশন ইউটিলিটিগুলি অন্তর্ভুক্ত করে। এটি বেশিরভাগ এনএলপি ব্যবহারের ক্ষেত্রে প্রস্তাবিত সমাধান। টেনসরফ্লো টেক্সটে নির্মিত, কেরাসএনএলপি নিম্ন-স্তরের পাঠ্য প্রক্রিয়াকরণ ক্রিয়াকলাপগুলিকে একটি API-তে বিমূর্ত করে যা ব্যবহারের সহজতার জন্য ডিজাইন করা হয়েছে। কিন্তু আপনি যদি Keras API-এর সাথে কাজ না করতে পছন্দ করেন, অথবা আপনার নিম্ন-স্তরের টেক্সট প্রসেসিং অপ্স-এ অ্যাক্সেসের প্রয়োজন হয়, আপনি সরাসরি টেনসরফ্লো টেক্সট ব্যবহার করতে পারেন।
কেরাসএনএলপি
import keras_nlp import tensorflow_datasets as tfds imdb_train, imdb_test = tfds.load( "imdb_reviews", split=["train", "test"], as_supervised=True, batch_size=16, ) # Load a BERT model. classifier = keras_nlp.models.BertClassifier.from_preset("bert_base_en_uncased") # Fine-tune on IMDb movie reviews. classifier.fit(imdb_train, validation_data=imdb_test) # Predict two new examples. classifier.predict(["What an amazing movie!", "A total waste of my time."])GitHub-এ কুইকস্টার্ট দেখুন।
TensorFlow-এ পাঠ্য প্রক্রিয়াকরণ শুরু করার সবচেয়ে সহজ উপায় হল KerasNLP ব্যবহার করা। KerasNLP হল একটি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ লাইব্রেরি যা অত্যাধুনিক প্রিসেট ওজন এবং আর্কিটেকচার রয়েছে এমন মডুলার উপাদানগুলি থেকে তৈরি ওয়ার্কফ্লোকে সমর্থন করে৷ আপনি কেরাসএনএলপি উপাদানগুলি তাদের আউট-অফ-দ্য-বক্স কনফিগারেশনের সাথে ব্যবহার করতে পারেন। আপনার যদি আরও নিয়ন্ত্রণের প্রয়োজন হয়, আপনি সহজেই উপাদানগুলি কাস্টমাইজ করতে পারেন। KerasNLP সমস্ত কর্মপ্রবাহের জন্য ইন-গ্রাফ গণনার উপর জোর দেয় যাতে আপনি TensorFlow ইকোসিস্টেম ব্যবহার করে সহজে উৎপাদনের আশা করতে পারেন।
KerasNLP হল মূল Keras API-এর একটি এক্সটেনশন, এবং সমস্ত উচ্চ-স্তরের KerasNLP মডিউল হল স্তর বা মডেল৷ আপনি যদি কেরাসের সাথে পরিচিত হন তবে আপনি ইতিমধ্যেই কেরাসএনএলপির বেশিরভাগ বুঝতে পেরেছেন।
আরও জানতে, KerasNLP দেখুন।
টেনসরফ্লো টেক্সট
import tensorflow as tf import tensorflow_text as tf_text def preprocess(vocab_lookup_table, example_text): # Normalize text tf_text.normalize_utf8(example_text) # Tokenize into words word_tokenizer = tf_text.WhitespaceTokenizer() tokens = word_tokenizer.tokenize(example_text) # Tokenize into subwords subword_tokenizer = tf_text.WordpieceTokenizer( vocab_lookup_table, token_out_type=tf.int64) subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1) # Apply padding padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16) return padded_inputsএকটি নোটবুকে চালান
KerasNLP উচ্চ-স্তরের পাঠ্য প্রক্রিয়াকরণ মডিউল সরবরাহ করে যা স্তর বা মডেল হিসাবে উপলব্ধ। আপনার যদি নিম্ন-স্তরের সরঞ্জামগুলিতে অ্যাক্সেসের প্রয়োজন হয়, আপনি TensorFlow পাঠ্য ব্যবহার করতে পারেন। টেন্সরফ্লো টেক্সট আপনাকে অপস এবং লাইব্রেরির একটি সমৃদ্ধ সংগ্রহ প্রদান করে যাতে আপনি টেক্সট আকারে ইনপুট যেমন কাঁচা টেক্সট স্ট্রিং বা ডকুমেন্টের সাথে কাজ করতে সাহায্য করেন। এই লাইব্রেরিগুলি পাঠ্য-ভিত্তিক মডেলগুলির দ্বারা নিয়মিত প্রয়োজনীয় প্রিপ্রসেসিং সম্পাদন করতে পারে এবং সিকোয়েন্স মডেলিংয়ের জন্য দরকারী অন্যান্য বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করতে পারে।
আপনি আপনার নিউরাল নেটে ইনপুট হিসাবে TensorFlow গ্রাফের ভিতর থেকে শক্তিশালী সিনট্যাকটিক এবং শব্দার্থিক পাঠ্য বৈশিষ্ট্যগুলি বের করতে পারেন।
TensorFlow গ্রাফের সাথে প্রিপ্রসেসিংকে একীভূত করা নিম্নলিখিত সুবিধাগুলি প্রদান করে:
- পাঠ্যের সাথে কাজ করার জন্য একটি বড় টুলকিট সুবিধা দেয়
- প্রশিক্ষণ, মূল্যায়ন এবং লঞ্চের মাধ্যমে সমস্যা সংজ্ঞা থেকে প্রকল্পগুলিকে সমর্থন করার জন্য TensorFlow সরঞ্জামগুলির একটি বড় স্যুটের সাথে একীকরণের অনুমতি দেয়
- পরিবেশন করার সময় জটিলতা হ্রাস করে এবং প্রশিক্ষণ-সার্ভিং স্কু প্রতিরোধ করে
উপরোক্ত ছাড়াও, অনুমানে টোকেনাইজেশন বা প্রি-প্রসেসিং স্ক্রিপ্টগুলি পরিচালনা করার চেয়ে প্রশিক্ষণে টোকেনাইজেশন সম্পর্কে আপনাকে চিন্তা করার দরকার নেই।