एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

पंजा_विकी

  • विवरण:

मौजूदा पैराफ़्रेज़ पहचान डेटासेट में ऐसे वाक्य जोड़े नहीं होते हैं जिनमें पैराफ़्रेज़ के बिना उच्च लेक्सिकल ओवरलैप होता है। इस तरह के डेटा पर प्रशिक्षित मॉडल न्यूयॉर्क से फ़्लोरिडा की फ़्लाइट और फ़्लोरिडा से न्यूयॉर्क की फ़्लाइट जैसी जोड़ियों में अंतर करने में विफल रहते हैं। इस डेटासेट में १०८,४६३ मानव-लेबल और ६५६k नीरव लेबल वाले जोड़े शामिल हैं जो पैराफ्रेश पहचान की समस्या के लिए मॉडलिंग संरचना, संदर्भ और शब्द क्रम की जानकारी के महत्व को दर्शाते हैं।

पर पांव मार वर्ड से संक्षिप्त व्याख्या विरोधी: पंजे: अधिक जानकारी के लिए, साथ कागज देख https://arxiv.org/abs/1904.01130

इस संग्रह में विकिपीडिया पृष्ठों से उत्पन्न जोड़े शामिल हैं, जिसमें जोड़े शब्द अदला-बदली और वापस अनुवाद विधियों दोनों से उत्पन्न होते हैं। सभी जोड़ियों में पैराफ्रेशिंग और प्रवाह दोनों पर मानवीय निर्णय होते हैं और उन्हें ट्रेन/देव/टेस्ट सेक्शन में विभाजित किया जाता है।

सभी फाइलें चार कॉलम के साथ tsv फॉर्मेट में हैं:

आईडी प्रत्येक जोड़ी वाक्य के लिए एक अद्वितीय आईडी 1 पहला वाक्य वाक्य 2 प्रत्येक जोड़ी के लिए दूसरा वाक्य (noisy_) लेबल (शोर) लेबल

प्रत्येक लेबल में दो संभावित मान होते हैं: 0 इंगित करता है कि जोड़ी का अलग अर्थ है, जबकि 1 इंगित करता है कि जोड़ी एक पैराफ्रेज़ है।

  • होमपेज: https://github.com/google-research-datasets/paws

  • स्रोत कोड: tfds.text.PawsWiki

  • संस्करण:

    • 1.0.0 : प्रारंभिक संस्करण।
    • 1.1.0 (डिफ़ॉल्ट): विभिन्न सबसेट और समर्थन कच्चे पाठ करने के लिए जोड़ता कॉन्फ़िगरेशन।
  • डाउनलोड का आकार: 57.47 MiB

  • विशेषताएं:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • पर्यवेक्षित कुंजियों (देखें as_supervised डॉक ): None

  • चित्रा ( tfds.show_examples ): समर्थित नहीं।

  • प्रशस्ति पत्र:

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki / labeled_final_tokenized (डिफ़ॉल्ट config)

  • कॉन्फ़िग विवरण: सबसेट: labeled_final tokenized: यह सच है

  • डेटासेट का आकार: 17.96 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ

  • विभाजन:

विभाजित करना उदाहरण
'test' 8,000
'train' 49,401
'validation' 8,000

paws_wiki / labeled_final_raw

  • कॉन्फ़िग विवरण: सबसेट: labeled_final tokenized: झूठे

  • डेटासेट का आकार: 17.57 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ

  • विभाजन:

विभाजित करना उदाहरण
'test' 8,000
'train' 49,401
'validation' 8,000

paws_wiki / labeled_swap_tokenized

  • कॉन्फ़िग विवरण: सबसेट: labeled_swap tokenized: यह सच है

  • डेटासेट का आकार: 8.79 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ

  • विभाजन:

विभाजित करना उदाहरण
'train' ३०,३९७

paws_wiki / labeled_swap_raw

  • कॉन्फ़िग विवरण: सबसेट: labeled_swap tokenized: झूठे

  • डेटासेट का आकार: 8.60 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ

  • विभाजन:

विभाजित करना उदाहरण
'train' ३०,३९७

paws_wiki / unlabeled_final_tokenized

  • कॉन्फ़िग विवरण: सबसेट: unlabeled_final tokenized: यह सच है

  • डेटासेट का आकार: 177.89 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ (सत्यापन), केवल जब shuffle_files=False (ट्रेन)

  • विभाजन:

विभाजित करना उदाहरण
'train' 645,652
'validation' 10,000