xquad

  • विवरण :

XQuAD (क्रॉस-लिंगुअल क्वेश्चन आंसरिंग डेटासेट) क्रॉस-लिंगुअल क्वेश्चन आंसरिंग परफॉर्मेंस के मूल्यांकन के लिए एक बेंचमार्क डेटासेट है। डेटासेट में SQuAD v1.1 (राजपुरकर एट अल।, 2016) के विकास सेट से 240 पैराग्राफ और 1190 प्रश्न-उत्तर जोड़े का एक उपसमूह शामिल है, साथ ही दस भाषाओं में उनके पेशेवर अनुवाद: स्पेनिश, जर्मन, ग्रीक, रूसी, तुर्की , अरबी, वियतनामी, थाई, चीनी और हिंदी। नतीजतन, डेटासेट पूरी तरह से 11 भाषाओं में समानांतर है। डिफ़ॉल्ट शून्य-शॉट सेटिंग में XQuAD चलाने के लिए, SQuAD v1.1 प्रशिक्षण और सत्यापन डेटा का उपयोग यहां करें: https://www.tensorflow.org/datasets/catalog/squad

हम XTREME (Hu et al., 2020) से प्रत्येक गैर-अंग्रेज़ी भाषा के लिए "अनुवाद-ट्रेन", "अनुवाद-देव", और "अनुवाद-परीक्षण" विभाजन भी शामिल करते हैं। इनका उपयोग XQuAD को "अनुवाद-ट्रेन" या "अनुवाद-परीक्षण" सेटिंग्स में चलाने के लिए किया जा सकता है।

  • अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें

  • होमपेज : https://github.com/deepmind/xquad

  • स्रोत कोड : tfds.question_answering.Xquad

  • संस्करण :

    • 3.0.0 (डिफ़ॉल्ट): ऐसे कई उदाहरणों की समस्या को ठीक करता है, जहाँ संदर्भ व्हाइट-स्पेस हटाने के कारण उत्तर विस्तार गलत संरेखित होते हैं। यह परिवर्तन लगभग 14% परीक्षण उदाहरणों को प्रभावित करता है।
  • फ़ीचर संरचना :

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
जवाब क्रम
उत्तर/जवाब_शुरू टेन्सर int32
उत्तर/पाठ मूलपाठ डोरी
संदर्भ मूलपाठ डोरी
पहचान टेन्सर डोरी
प्रश्न मूलपाठ डोरी
शीर्षक मूलपाठ डोरी
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उद्धरण :

@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

xquad/ar (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िग विवरण : XQuAD 'ar' टेस्ट स्प्लिट, XTREME से मशीन-अनुवादित ट्रांसलेशन-ट्रेन/ट्रांसलेट-देव/ट्रांसलेट-टेस्ट स्प्लिट्स के साथ (हू एट अल., 2020)।

  • डाउनलोड आकार : 420.97 MiB

  • डेटासेट का आकार : 134.83 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,190
'translate-dev' 10,541
'translate-test' 1,151
'translate-train' 86,787

xquad/डे

  • कॉन्फिग विवरण : XQuAD 'डी' टेस्ट स्प्लिट, XTREME से मशीन-अनुवादित अनुवाद-ट्रेन/अनुवाद-देव/अनुवाद-परीक्षण विभाजन के साथ (हू एट अल., 2020)।

  • डाउनलोड आकार : 127.04 MiB

  • डेटासेट का आकार : 98.80 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,190
'translate-dev' 10,371
'translate-test' 1,168
'translate-train' 82,603

xquad/ईएल

  • कॉन्फ़िग विवरण : XQuAD 'el' टेस्ट स्प्लिट, XTREME से मशीन-अनुवादित अनुवाद-ट्रेन/अनुवाद-देव/अनुवाद-परीक्षण विभाजन के साथ (हू एट अल., 2020)।

  • डाउनलोड आकार : 499.40 MiB

  • डेटासेट का आकार : 157.90 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, अनुवाद-देव, अनुवाद-परीक्षण), केवल जब shuffle_files=False (अनुवाद-ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,190
'translate-dev' 10,100
'translate-test' 1,182
'translate-train' 79,946

xquad/es

  • कॉन्फिग विवरण : XQuAD 'es' टेस्ट स्प्लिट, XTREME से मशीन-अनुवादित अनुवाद-ट्रेन/अनुवाद-देव/अनुवाद-परीक्षण विभाजन के साथ (हू एट अल., 2020)।

  • डाउनलोड आकार : 138.41 MiB

  • डेटासेट का आकार : 104.96 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,190
'translate-dev' 10,566
'translate-test' 1,188
'translate-train' 87,488

xquad/हाय

  • कॉन्फिग विवरण : XQuAD 'हाय' परीक्षण विभाजन, XTREME से मशीन-अनुवादित अनुवाद-ट्रेन/अनुवाद-देव/अनुवाद-परीक्षण विभाजन के साथ (हू एट अल., 2020)।

  • डाउनलोड का आकार : 472.23 MiB

  • डेटासेट का आकार : 207.85 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, अनुवाद-देव, अनुवाद-परीक्षण), केवल जब shuffle_files=False (अनुवाद-ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,190
'translate-dev' 10,536
'translate-test' 1,184
'translate-train' 85,804

xquad/आरयू

  • कॉन्फिग विवरण : XQuAD 'ru' टेस्ट स्प्लिट, XTREME से मशीन-अनुवादित अनुवाद-ट्रेन/अनुवाद-देव/अनुवाद-परीक्षण विभाजन के साथ (हू एट अल., 2020)।

  • डाउनलोड आकार : 513.80 MiB

  • डेटासेट का आकार : 159.38 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, अनुवाद-देव, अनुवाद-परीक्षण), केवल जब shuffle_files=False (अनुवाद-ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,190
'translate-dev' 10,469
'translate-test' 1,190
'translate-train' 84,869

xquad/वें

  • कॉन्फिग विवरण : XQuAD 'वें' परीक्षण विभाजन, XTREME से मशीन-अनुवादित अनुवाद-ट्रेन/अनुवाद-देव/अनुवाद-परीक्षण विभाजन के साथ (हू एट अल., 2020)।

  • डाउनलोड का आकार : 461.54 MiB

  • डेटासेट का आकार : 199.57 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, अनुवाद-देव, अनुवाद-परीक्षण), केवल जब shuffle_files=False (अनुवाद-ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,190
'translate-dev' 10,516
'translate-test' 1,157
'translate-train' 85,846

xquad/tr

  • कॉन्फिग विवरण : XQuAD 'tr' टेस्ट स्प्लिट, XTREME से मशीन-अनुवादित अनुवाद-ट्रेन/अनुवाद-देव/अनुवाद-परीक्षण विभाजन के साथ (हू एट अल., 2020)।

  • डाउनलोड आकार : 151.08 MiB

  • डेटासेट का आकार : 97.56 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,190
'translate-dev' 10,535
'translate-test' 1,112
'translate-train' 86,511

xquad/vi

  • कॉन्फिग विवरण : XQuAD 'vi' टेस्ट स्प्लिट, XTREME से मशीन-अनुवादित अनुवाद-ट्रेन/अनुवाद-देव/अनुवाद-परीक्षण विभाजन के साथ (हू एट अल., 2020)।

  • डाउनलोड आकार : 218.09 MiB

  • डेटासेट का आकार : 120.03 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,190
'translate-dev' 10,555
'translate-test' 1,178
'translate-train' 87,187

xquad/zh

  • कॉन्फ़िग विवरण : XQuAD 'zh' टेस्ट स्प्लिट, XTREME से मशीन-अनुवादित ट्रांसलेशन-ट्रेन/ट्रांसलेट-देव/ट्रांसलेट-टेस्ट स्प्लिट्स के साथ (हू एट अल., 2020)।

  • डाउनलोड आकार : 174.57 MiB

  • डेटासेट का आकार : 80.79 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,190
'translate-dev' 10,475
'translate-test' 1,186
'translate-train' 85,700

xquad/hi

  • कॉन्फिग विवरण : XQuAD 'एन' टेस्ट स्प्लिट।

  • डाउनलोड आकार : 595.10 KiB

  • डेटासेट का आकार : 1.19 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,190