एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

पंजा_x_विकी

  • विवरण:

इस डेटासेट में 23,659 मानव अनुवादित PAWS मूल्यांकन जोड़े और 296,406 मशीन अनुवादित प्रशिक्षण जोड़े छह विशिष्ट भाषाओं में हैं:

  • फ्रेंच
  • स्पेनिश
  • जर्मन
  • चीनी
  • जापानी
  • कोरियाई

पर संक्षिप्त व्याख्या पहचान के लिए एक क्रॉस बहुभाषी विरोधात्मक डेटासेट: पंजे एक्स: अधिक जानकारी के लिए, साथ कागज देख https://arxiv.org/abs/1908.11828

PAWS डेटासेट के समान, उदाहरणों को ट्रेन/देव/टेस्ट अनुभागों में विभाजित किया गया है। सभी फाइलें चार कॉलम के साथ tsv फॉर्मेट में हैं:

आईडी प्रत्येक जोड़ी वाक्य के लिए एक अद्वितीय आईडी 1 पहला वाक्य वाक्य 2 प्रत्येक जोड़ी के लिए दूसरा वाक्य (noisy_) लेबल (शोर) लेबल

प्रत्येक लेबल में दो संभावित मान होते हैं: 0 इंगित करता है कि जोड़ी का अलग अर्थ है, जबकि 1 इंगित करता है कि जोड़ी एक पैराफ्रेज़ है।

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • पर्यवेक्षित कुंजियों (देखें as_supervised डॉक ): None

  • चित्रा ( tfds.show_examples ): समर्थित नहीं।

  • प्रशस्ति पत्र:

@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िग विवरण: डी के लिए अनूदित

  • डेटासेट का आकार: 15.27 MiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 2,000
'train' 49,380
'validation' 2,000

paws_x_wiki/hi

  • कॉन्फ़िग विवरण: एन को अनूदित

  • डेटासेट का आकार: 14.59 MiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 2,000
'train' 49,175
'validation' 2,000

paws_x_wiki/es

  • कॉन्फ़िग विवरण: es करने के लिए अनूदित

  • डेटासेट का आकार: 15.27 MiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 2,000
'train' 49,401
'validation' 1,961

पंजा_x_wiki/fr

  • कॉन्फ़िग विवरण: fr को अनूदित

  • डेटासेट का आकार: 15.79 MiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 2,000
'train' 49,399
'validation' 1,988

पंजा_x_विकी/जा

  • कॉन्फ़िग विवरण: ja को अनूदित

  • डेटासेट का आकार: 17.77 MiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 2,000
'train' 49,401
'validation' 2,000

पंजा_x_विकी/को

  • कॉन्फ़िग विवरण: ko को अनूदित

  • डेटासेट का आकार: 16.42 MiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 1,999
'train' 49,164
'validation' 2,000

पंजे_x_wiki/zh

  • कॉन्फ़िग विवरण: zh को अनूदित

  • डेटासेट का आकार: 13.20 MiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 2,000
'train' 49,401
'validation' 2,000