বহুভাষা ইউনিভার্সাল বাক্য এনকোডার প্রশ্নোত্তর পুনরুদ্ধার

TensorFlow.org এ দেখুন Google Colab-এ চালান GitHub এ দেখুন নোটবুক ডাউনলোড করুন TF হাব মডেল দেখুন

এই ব্যবহার করার জন্য একটি ডেমো হয় ইউনিভার্সাল এনকোডার বহুভাষিক Q & A- মডেল , লেখার প্রশ্নোত্তর আহরণ জন্য question_encoder এবং মডেল এর response_encoder ব্যবহার ব্যাখ্যা। আমরা থেকে বাক্য ব্যবহার স্কোয়াড ডেমো ডেটা সেটটি, প্রতিটি বাক্য এবং তার প্রেক্ষাপটে (বাক্য পার্শ্ববর্তী পাঠ্য) যেমন অনুচ্ছেদ response_encoder সঙ্গে উচ্চ মাত্রা embeddings মধ্যে এনকোড করা আছে। এই embeddings ব্যবহার করে নির্মিত একটি সূচক সংরক্ষিত হয় simpleneighbors প্রশ্নোত্তর আহরণ জন্য গ্রন্থাগার।

আহরণ উপর একটি র্যান্ডম প্রশ্ন থেকে নির্বাচন করা হয় স্কোয়াড ডেটা সেটটি এবং উচ্চ মাত্রা question_encoder এবং শব্দার্থিক স্থান আনুমানিক নিকটতম প্রতিবেশীদের একটি তালিকা ফেরার ক্যোয়ারী simpleneighbors সূচকের সাথে এম্বেড মধ্যে এনকোড।

আরও মডেল

আপনি সমস্ত বর্তমানে হোস্ট টেক্সট মডেলের এম্বেডিং জানতে পারেন এখানে এবং সমস্ত মডেলের যে পাশাপাশি স্কোয়াড প্রশিক্ষণ প্রদান করা হয়েছে এখানে

সেটআপ

সেটআপ পরিবেশ

%%capture
# Install the latest Tensorflow version.
!pip install -q tensorflow_text
!pip install -q simpleneighbors[annoy]
!pip install -q nltk
!pip install -q tqdm

সেটআপ সাধারণ আমদানি এবং ফাংশন

[nltk_data] Downloading package punkt to /home/kbuilder/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.

SQuAD ডেটাসেট ডাউনলোড করতে এবং বের করতে নিম্নলিখিত কোড ব্লক চালান:

  • দল থেকে প্রতিটি অনুচ্ছেদের ডেটা সেটটি nltk গ্রন্থাগার এবং বাক্য এবং অনুচ্ছেদ টেক্সট ফর্ম (পাঠ্য, প্রসঙ্গ) tuple ব্যবহার বাক্য মধ্যে ফাটানো হয় - বাক্য (পাঠ্য, প্রসঙ্গ) tuples একটি তালিকা রয়েছে।
  • প্রশ্ন (প্রশ্ন উত্তর) tuples একটি তালিকা রয়েছে।

SQuAD ডেটা ডাউনলোড করুন এবং বের করুন

squad_url = 'https://rajpurkar.github.io/SQuAD-explorer/dataset/dev-v1.1.json'

squad_json = download_squad(squad_url)
sentences = extract_sentences_from_squad_json(squad_json)
questions = extract_questions_from_squad_json(squad_json)
print("%s sentences, %s questions extracted from SQuAD %s" % (len(sentences), len(questions), squad_url))

print("\nExample sentence and context:\n")
sentence = random.choice(sentences)
print("sentence:\n")
pprint.pprint(sentence[0])
print("\ncontext:\n")
pprint.pprint(sentence[1])
print()
10455 sentences, 10552 questions extracted from SQuAD https://rajpurkar.github.io/SQuAD-explorer/dataset/dev-v1.1.json

Example sentence and context:

sentence:

('The Mongol Emperors had built large palaces and pavilions, but some still '
 'continued to live as nomads at times.')

context:

("Since its invention in 1269, the 'Phags-pa script, a unified script for "
 'spelling Mongolian, Tibetan, and Chinese languages, was preserved in the '
 'court until the end of the dynasty. Most of the Emperors could not master '
 'written Chinese, but they could generally converse well in the language. The '
 'Mongol custom of long standing quda/marriage alliance with Mongol clans, the '
 'Onggirat, and the Ikeres, kept the imperial blood purely Mongol until the '
 'reign of Tugh Temur, whose mother was a Tangut concubine. The Mongol '
 'Emperors had built large palaces and pavilions, but some still continued to '
 'live as nomads at times. Nevertheless, a few other Yuan emperors actively '
 'sponsored cultural activities; an example is Tugh Temur (Emperor Wenzong), '
 'who wrote poetry, painted, read Chinese classical texts, and ordered the '
 'compilation of books.')

নিম্নলিখিত কোড ব্লক সেটআপ tensorflow গ্রাফ গ্রাম এবং অধিবেশন ইউনিভার্সাল এনকোডার বহুভাষিক Q & A- মডেল এর question_encoder এবং response_encoder স্বাক্ষর।

টেনসরফ্লো হাব থেকে মডেল লোড করুন

নিম্নলিখিত কোড ব্লক সব পাঠ্য, প্রসঙ্গ tuples জন্য embeddings গনা এবং তাদের সংরক্ষণ simpleneighbors response_encoder ব্যবহার সূচি।

এম্বেডিং গণনা করুন এবং সরল প্রতিবেশীদের সূচক তৈরি করুন

Computing embeddings for 10455 sentences
0%|          | 0/104 [00:00<?, ?it/s]
simpleneighbors index for 10455 sentences built.

আহরণ উপর, প্রশ্ন question_encoder ব্যবহার এনকোডেড হয়েছে এবং প্রশ্ন এমবেডিং simpleneighbors সূচক অনুসন্ধান করতে ব্যবহৃত হয়।

SQuAD থেকে একটি এলোমেলো প্রশ্নের জন্য নিকটতম প্রতিবেশীদের পুনরুদ্ধার করুন

num_results = 25

query = random.choice(questions)
display_nearest_neighbors(query[0], query[1])