पंजा_विकी

विवरण :

मौजूदा व्याख्यात्मक पहचान डेटासेट में ऐसे वाक्य जोड़े की कमी होती है जिनमें बिना व्याख्या के उच्च शाब्दिक ओवरलैप होता है। इस तरह के डेटा पर प्रशिक्षित मॉडल न्यूयॉर्क से फ्लोरिडा की उड़ानें और फ्लोरिडा से न्यूयॉर्क की उड़ानें जैसे जोड़ों को अलग करने में विफल रहते हैं। इस डेटासेट में 108,463 मानव-लेबल वाले और 656k शोर वाले लेबल वाले जोड़े शामिल हैं जो व्याख्यात्मक पहचान की समस्या के लिए मॉडलिंग संरचना, संदर्भ और शब्द क्रम जानकारी के महत्व को दर्शाते हैं।

अधिक जानकारी के लिए, संलग्न पेपर देखें: PAWS: https://arxiv.org/abs/1904.01130 पर वर्ड स्क्रैम्बलिंग से विरोधियों की व्याख्या

इस कॉर्पस में विकिपीडिया पृष्ठों से उत्पन्न जोड़े शामिल हैं, जिसमें ऐसे जोड़े शामिल हैं जो शब्द स्वैपिंग और बैक ट्रांसलेशन विधियों दोनों से उत्पन्न होते हैं। सभी जोड़ियों में व्याख्या और प्रवाह दोनों पर मानवीय निर्णय होते हैं और वे ट्रेन/देव/परीक्षण अनुभागों में विभाजित होते हैं।

सभी फाइलें चार स्तंभों के साथ टीएसवी प्रारूप में हैं:

id : प्रत्येक जोड़ी के लिए एक अद्वितीय आईडी।
sentence1 1: पहला वाक्य।
sentence2 2: दूसरा वाक्य।
(noisy_)label : (शोर) प्रत्येक जोड़ी के लिए लेबल।

प्रत्येक लेबल के दो संभावित मान हैं: 0 इंगित करता है कि जोड़ी का अलग अर्थ है, जबकि 1 इंगित करता है कि जोड़ी एक व्याख्या है।

अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
मुखपृष्ठ : https://github.com/google-research-datasets/paws
स्रोत कोड : tfds.datasets.paws_wiki.Builder
संस्करण :
- 1.0.0 : प्रारंभिक संस्करण।
- 1.1.0 (डिफ़ॉल्ट): विभिन्न उपसमुच्चय में कॉन्फ़िगरेशन जोड़ता है और कच्चे पाठ का समर्थन करता है।
डाउनलोड आकार : 57.47 MiB
फ़ीचर संरचना :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
लेबल	क्लासलेबल	int64
वाक्य1	मूलपाठ	डोरी
वाक्य2	मूलपाठ	डोरी

पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (डिफ़ॉल्ट कॉन्फ़िगरेशन)

कॉन्फिग विवरण : सबसेट: लेबल_फाइनल टोकनाइज्ड: ट्रू
डेटासेट का आकार : 17.96 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :

विभाजित करना	उदाहरण
`'test'`	8,000
`'train'`	49,401
`'validation'`	8,000

उदाहरण ( tfds.as_dataframe ):

पंजे_विकी/लेबल_फाइनल_रॉ

कॉन्फ़िगरेशन विवरण : सबसेट: लेबल_फाइनल टोकनयुक्त: गलत
डेटासेट का आकार : 17.57 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :

विभाजित करना	उदाहरण
`'test'`	8,000
`'train'`	49,401
`'validation'`	8,000

उदाहरण ( tfds.as_dataframe ):

paws_wiki/labeled_swap_tokenized

विन्यास विवरण : सबसेट: लेबल_स्वैप टोकनयुक्त: सच
डेटासेट का आकार : 8.79 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :

विभाजित करना	उदाहरण
`'train'`	30,397

उदाहरण ( tfds.as_dataframe ):

paws_wiki/labeled_swap_raw

विन्यास विवरण : सबसेट: लेबल_स्वैप टोकनयुक्त: गलत
डेटासेट का आकार : 8.60 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :

विभाजित करना	उदाहरण
`'train'`	30,397

उदाहरण ( tfds.as_dataframe ):

paws_wiki/unlabeled_final_tokenized

कॉन्फिग विवरण : सबसेट: अनलेबल_फाइनल टोकनाइज्ड: ट्रू
डेटासेट का आकार : 177.89 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (सत्यापन), केवल जब shuffle_files=False (ट्रेन)
विभाजन :

विभाजित करना	उदाहरण
`'train'`	645,652
`'validation'`	10,000

उदाहरण ( tfds.as_dataframe ):

पंजा_विकी संग्रह की मदद से व्यवस्थित रहें अपनी प्राथमिकताओं के आधार पर, कॉन्टेंट को सेव करें और कैटगरी में बांटें.