TensorFlow के लिए टेक्स्ट प्रोसेसिंग टूल
import tensorflow as tf import tensorflow_text as tf_text def preprocess(vocab_lookup_table, example_text): # Normalize text tf_text.normalize_utf8(example_text) # Tokenize into words word_tokenizer = tf_text.WhitespaceTokenizer() tokens = word_tokenizer.tokenize(example_text) # Tokenize into subwords subword_tokenizer = tf_text.WordpieceTokenizer( vocab_lookup_table, token_out_type=tf.int64) subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1) # Apply padding padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16) return padded_inputs1नोटबुक में चलाएं4
TensorFlow आपको रॉ टेक्स्ट स्ट्रिंग्स या दस्तावेज़ जैसे टेक्स्ट फॉर्म में इनपुट के साथ काम करने में मदद करने के लिए ऑप्स और लाइब्रेरी का एक समृद्ध संग्रह प्रदान करता है। ये पुस्तकालय पाठ-आधारित मॉडलों के लिए नियमित रूप से आवश्यक पूर्व-प्रसंस्करण कर सकते हैं, और अनुक्रम मॉडलिंग के लिए उपयोगी अन्य सुविधाओं को शामिल करते हैं।
आप अपने तंत्रिका जाल में इनपुट के रूप में TensorFlow ग्राफ़ के अंदर से शक्तिशाली वाक्य-विन्यास और शब्दार्थ पाठ सुविधाएँ निकाल सकते हैं।
TensorFlow ग्राफ़ के साथ प्रीप्रोसेसिंग को एकीकृत करने से निम्नलिखित लाभ मिलते हैं:
- टेक्स्ट के साथ काम करने के लिए एक बड़े टूलकिट की सुविधा देता है
- प्रशिक्षण, मूल्यांकन और लॉन्च के माध्यम से समस्या की परिभाषा से परियोजनाओं का समर्थन करने के लिए Tensorflow उपकरणों के एक बड़े सूट के साथ एकीकरण की अनुमति देता है
- सेवा के समय में जटिलता को कम करता है और प्रशिक्षण-सेवा को तिरछा होने से रोकता है
उपरोक्त के अलावा, आपको प्रशिक्षण में टोकननाइजेशन के बारे में चिंता करने की आवश्यकता नहीं है, जो अनुमान पर टोकननाइजेशन से अलग है, या प्रीप्रोसेसिंग स्क्रिप्ट का प्रबंधन करता है।
