विकी40बी

  • विवरण :

पृष्ठों के 40+ विकिपीडिया भाषाओं के संस्करणों के लिए क्लीन-अप टेक्स्ट संस्थाओं से मेल खाता है। डेटासेट में प्रति भाषा ट्रेन/डेवलप/टेस्ट विभाजन होता है। असंबद्धता वाले पेजों, रीडायरेक्ट पेजों, हटाए गए पेजों और गैर-इकाई वाले पेजों को हटाने के लिए पेज फ़िल्टरिंग द्वारा डेटासेट को साफ़ किया जाता है। प्रत्येक उदाहरण में इकाई की विकिडेटा आईडी और पृष्ठ प्रसंस्करण के बाद पूरा विकिपीडिया लेख शामिल है जो गैर-सामग्री अनुभागों और संरचित वस्तुओं को हटा देता है। इस कॉर्पस पर प्रशिक्षित भाषा मॉडल - जिसमें 41 मोनोलिंगुअल मॉडल और 2 बहुभाषी मॉडल शामिल हैं - https://tfhub.dev/google/collections/wiki40b-lm/1 पर पाए जा सकते हैं।

FeaturesDict({
    'text': Text(shape=(), dtype=string),
    'version_id': Text(shape=(), dtype=string),
    'wikidata_id': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीप्रकार विवरण
फीचर्सडिक्ट
मूलपाठ मूलपाठ डोरी
संस्करण_आईडी मूलपाठ डोरी
wikidata_id मूलपाठ डोरी
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उद्धरण :

@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b/en (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िग विवरण : en के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 9.91 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 162,274
'train' 2,926,536
'validation' 163,597

wiki40b/ar

  • कॉन्फ़िग विवरण : ar के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 833.20 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 12,271
'train' 220,885
'validation' 12,198

wiki40b/zh-cn

  • कॉन्फ़िगरेशन विवरण : zh-cn के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 985.53 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 30,355
'train' 549,672
'validation' 30,299

wiki40b/zh-tw

  • कॉन्फ़िगरेशन विवरण : zh-tw के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 986.45 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 30,670
'train' 552,031
'validation' 30,739

wiki40b/nl

  • कॉन्फ़िगरेशन विवरण : nl के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 961.82 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 24,776
'train' 447,555
'validation' 25,201

wiki40b/fr

  • कॉन्फ़िगरेशन विवरण : fr के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 3.37 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 68,004
'train' 1,227,206
'validation' 68,655

विकी40बी/डी

  • कॉन्फ़िगरेशन विवरण : De के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 4.78 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 86,594
'train' 1,554,910
'validation' 86,068

wiki40b/it

  • कॉन्फ़िगरेशन विवरण : इसके लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 2.00 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 40,443
'train' 732,609
'validation' 40,684

wiki40b/ja

  • कॉन्फ़िगरेशन विवरण : ja के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 2.19 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 41,268
'train' 745,392
'validation' 41,576

wiki40b/ko

  • कॉन्फ़िगरेशन विवरण : ko के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 453.98 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 10,802
'train' 194,977
'validation' 10,805

विकि40बी/पीएल

  • कॉन्फ़िगरेशन विवरण : pl के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 1.03 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 27,987
'train' 505,191
'validation' 28,310

विकी40बी/पीटी

  • कॉन्फ़िगरेशन विवरण : पीटी के लिए विकि40बी डेटासेट।

  • डेटासेट का आकार : 1.08 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 22,693
'train' 406,507
'validation' 22,301

wiki40b/ru

  • कॉन्फ़िग विवरण : ru के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 4.13 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 51,885
'train' 926,037
'validation' 51,287

wiki40b/es

  • कॉन्फ़िगरेशन विवरण : es के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 2.70 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 48,764
'train' 872,541
'validation' 48,592

विकि40बी/थ

  • कॉन्फ़िगरेशन विवरण : वें के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 326.29 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 3,114
'train' 56,798
'validation' 3,093

विकि40बी/टीआर

  • कॉन्फ़िगरेशन विवरण : tr के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 308.87 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 7,890
'train' 142,576
'validation' 7,845

विकि40बी/बीजी

  • कॉन्फ़िगरेशन विवरण : बीजी के लिए विकी40बी डेटासेट।

  • डेटासेट का आकार : 433.20 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 7,289
'train' 130,670
'validation' 7,259

विकि40बी/सीए

  • कॉन्फ़िगरेशन विवरण : सीए के लिए विकि40बी डेटासेट।

  • डेटासेट का आकार : 753.00 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 15,568
'train' 277,313
'validation' 15,362

विकि40बी/सीएस

  • कॉन्फ़िगरेशन विवरण : सीएस के लिए विकी40बी डेटासेट।

  • डेटासेट का आकार : 631.84 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 12,984
'train' 235,971
'validation' 13,096

wiki40b/da

  • कॉन्फ़िगरेशन विवरण : da के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 240.51 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल तभी जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 6,219
'train' 109,486
'validation' 6,173

wiki40b/el

  • कॉन्फ़िगरेशन विवरण : एल के लिए विकी40बी डेटासेट।

  • डेटासेट का आकार : 524.77 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 5,261
'train' 93,596
'validation' 5,130

wiki40b/et

  • कॉन्फ़िगरेशन विवरण : एट के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 184.07 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल तभी जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 6,205
'train' 114,464
'validation' 6,351

विकि40बी/एफए

  • कॉन्फ़िगरेशन विवरण : पिता के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 482.55 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 11,262
'train' 203,145
'validation' 11,180

विकि40बी/फाई

  • कॉन्फ़िगरेशन विवरण : Fi के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 534.13 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 14,179
'train' 255,822
'validation' 13,962

wiki40b/he

  • कॉन्फ़िगरेशन विवरण : उसके लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 869.51 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 9,344
'train' 165,359
'validation' 9,231

विकि40बी/हाय

  • कॉन्फ़िगरेशन विवरण : हाय के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 277.56 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,643
'train' 45,737
'validation' 2,596

विकि40बी/घंटा

  • कॉन्फ़िगरेशन विवरण : घंटे के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 235.58 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल तभी जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 5,724
'train' 103,857
'validation' 5,792

wiki40b/hu

  • कॉन्फ़िगरेशन विवरण : hu के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 634.25 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 15,258
'train' 273,248
'validation' 15,208

विकि40बी/आईडी

  • कॉन्फ़िगरेशन विवरण : आईडी के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 334.06 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 8,598
'train' 156,255
'validation' 8,714

विकि40बी/एलटी

  • कॉन्फ़िगरेशन विवरण : लेफ्टिनेंट के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 140.46 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 4,683
'train' 84,854
'validation' 4,754

विकि40बी/एलवी

  • कॉन्फ़िगरेशन विवरण : lv के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 80.07 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,932
'train' 33,064
'validation' 1,857

विकि40बी/एमएस

  • कॉन्फ़िगरेशन विवरण : एमएस के लिए विकी40बी डेटासेट।

  • डेटासेट का आकार : 142.49 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल तभी जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 5,235
'train' 97,509
'validation' 5,357

विकि40बी/सं

  • कॉन्फ़िगरेशन विवरण : संख्या के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 382.03 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 10,588
'train' 190,588
'validation' 10,547

विकि40बी/आरओ

  • कॉन्फ़िगरेशन विवरण : ro के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 319.68 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 7,870
'train' 139,615
'validation' 7,624

wiki40b/sk

  • कॉन्फ़िगरेशन विवरण : एसके के लिए विकी40बी डेटासेट।

  • डेटासेट का आकार : 170.20 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल तभी जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 5,741
'train' 103,095
'validation' 5,604

विकि40बी/एसएल

  • कॉन्फ़िगरेशन विवरण : sl के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 157.38 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल तभी जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 3,341
'train' 60,927
'validation' 3,287

विकि40बी/एसआर

  • कॉन्फ़िगरेशन विवरण : सीनियर के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 582.20 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 17,997
'train' 327,313
'validation' 18,100

विकि40बी/एसवी

  • कॉन्फ़िगरेशन विवरण : sv के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 613.62 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 22,291
'train' 400,742
'validation' 22,263

विकि40बी/टीएल

  • कॉन्फ़िगरेशन विवरण : टीएल के लिए विकी40बी डेटासेट।

  • डेटासेट का आकार : 29.04 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,446
'train' 25,940
'validation' 1,472

विकि40बी/यूके

  • कॉन्फ़िगरेशन विवरण : यूके के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 1.67 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 26,581
'train' 477,618
'validation' 26,324

wiki40b/vi

  • कॉन्फ़िगरेशन विवरण : vi के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 497.70 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 7,942
'train' 146,255
'validation' 8,195