Google I/O में ट्यूनिंग के लिए धन्यवाद। मांग पर सभी सत्र देखें मांग पर देखें

विकी40बी

  • विवरण :

40+ विकिपीडिया भाषाओं के लिए क्लीन-अप पाठ पृष्ठों के संस्करण संस्थाओं के अनुरूप हैं। डेटासेट में प्रति भाषा ट्रेन/देव/परीक्षण विभाजन होते हैं। असंबद्धता पृष्ठों, पुनर्निर्देशित पृष्ठों, हटाए गए पृष्ठों और गैर-इकाई पृष्ठों को हटाने के लिए डेटासेट को पृष्ठ फ़िल्टरिंग द्वारा साफ किया जाता है। प्रत्येक उदाहरण में इकाई का विकिडेटा आईडी, और पेज प्रोसेसिंग के बाद पूरा विकिपीडिया लेख शामिल है जो गैर-सामग्री अनुभागों और संरचित वस्तुओं को हटा देता है। इस कॉर्पस पर प्रशिक्षित भाषा मॉडल - जिसमें 41 मोनोलिंगुअल मॉडल और 2 बहुभाषी मॉडल शामिल हैं - https://tfhub.dev/google/collections/ पर देखे जा सकते हैं। विकि40बी-एलएम/1.

FeaturesDict({
    'text': Text(shape=(), dtype=string),
    'version_id': Text(shape=(), dtype=string),
    'wikidata_id': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
मूलपाठ मूलपाठ डोरी
version_id मूलपाठ डोरी
wikidata_id मूलपाठ डोरी
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उद्धरण :

@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b/hi (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िगरेशन विवरण : en के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 9.91 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 162,274
'train' 2,926,536
'validation' 163,597

विकी40बी/एआर

  • कॉन्फ़िग विवरण : ar के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 833.20 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 12,271
'train' 220,885
'validation' 12,198

wiki40b/zh-cn

  • कॉन्फ़िग विवरण : zh-cn के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 985.53 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 30,355
'train' 549,672
'validation' 30,299

wiki40b/zh-tw

  • कॉन्फ़िग विवरण : zh-tw के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 986.45 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 30,670
'train' 552,031
'validation' 30,739

विकि40बी/एनएल

  • कॉन्फ़िग विवरण : nl के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 961.82 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 24,776
'train' 447,555
'validation' 25,201

विकी40बी/एफआर

  • कॉन्फ़िग विवरण : fr के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 3.37 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 68,004
'train' 1,227,206
'validation' 68,655

विकि40बी/डी

  • कॉन्फ़िग विवरण : विकी40बी डेटासेट डी के लिए।

  • डेटासेट का आकार : 4.78 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 86,594
'train' 1,554,910
'validation' 86,068

विकी40बी/इट

  • कॉन्फ़िग विवरण : इसके लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 2.00 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 40,443
'train' 732,609
'validation' 40,684

विकि40बी/जा

  • कॉन्फ़िग विवरण : ja के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 2.19 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 41,268
'train' 745,392
'validation' 41,576

विकि40बी/को

  • कॉन्फ़िग विवरण : ko के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 453.98 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 10,802
'train' 194,977
'validation' 10,805

विकी40बी/पीएल

  • कॉन्फ़िग विवरण : pl के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 1.03 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 27,987
'train' 505,191
'validation' 28,310

विकी40बी/पीटी

  • कॉन्फ़िग विवरण : पीटी के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 1.08 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 22,693
'train' 406,507
'validation' 22,301

विकि40बी/आरयू

  • विन्यास विवरण : आरयू के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 4.13 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 51,885
'train' 926,037
'validation' 51,287

विकी40बी/एस

  • कॉन्फ़िग विवरण : es के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 2.70 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 48,764
'train' 872,541
'validation' 48,592

विकि40बी/थ

  • कॉन्फ़िग विवरण : वें के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 326.29 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 3,114
'train' 56,798
'validation' 3,093

विकी40बी/टीआर

  • कॉन्फ़िग विवरण : tr के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 308.87 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 7,890
'train' 142,576
'validation' 7,845

विकी40बी/बीजी

  • कॉन्फ़िगरेशन विवरण : बीजी के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 433.20 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 7,289
'train' 130,670
'validation' 7,259

विकी40बी/सीए

  • कॉन्फ़िग विवरण : सीए के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 753.00 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 15,568
'train' 277,313
'validation' 15,362

विकी40बी/सीएस

  • कॉन्फ़िग विवरण : सीएस के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 631.84 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 12,984
'train' 235,971
'validation' 13,096

विकी40बी/दा

  • कॉन्फ़िग विवरण : दा के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 240.51 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 6,219
'train' 109,486
'validation' 6,173

विकि40बी/एल

  • कॉन्फ़िग विवरण : el के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 524.77 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 5,261
'train' 93,596
'validation' 5,130

विकि40बी/एट

  • कॉन्फ़िग विवरण : Wiki40B डेटासेट आदि के लिए।

  • डेटासेट का आकार : 184.07 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 6,205
'train' 114,464
'validation' 6,351

विकि40बी/फा

  • कॉन्फ़िग विवरण : fa के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 482.55 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 11,262
'train' 203,145
'validation' 11,180

विकि40बी/फाई

  • कॉन्फ़िग विवरण : fi के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 534.13 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 14,179
'train' 255,822
'validation' 13,962

विकी40बी/हे

  • कॉन्फ़िग विवरण : उसके लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 869.51 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 9,344
'train' 165,359
'validation' 9,231

विकि40बी/हाय

  • कॉन्फ़िग विवरण : हाय के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 277.56 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,643
'train' 45,737
'validation' 2,596

विकी40बी/घंटा

  • कॉन्फ़िग विवरण : Wiki40B डेटासेट घंटे के लिए।

  • डेटासेट का आकार : 235.58 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 5,724
'train' 103,857
'validation' 5,792

विकि40बी/हू

  • कॉन्फ़िग विवरण : hu के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 634.25 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 15,258
'train' 273,248
'validation' 15,208

विकी40बी/आईडी

  • कॉन्फ़िग विवरण : आईडी के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 334.06 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 8,598
'train' 156,255
'validation' 8,714

विकि40बी/ली

  • विन्यास विवरण : लेफ्टिनेंट के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 140.46 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 4,683
'train' 84,854
'validation' 4,754

विकि40बी/एल.वी

  • कॉन्फ़िग विवरण : lv के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 80.07 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,932
'train' 33,064
'validation' 1,857

विकी40बी/एमएस

  • कॉन्फ़िग विवरण : एमएस के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 142.49 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 5,235
'train' 97,509
'validation' 5,357

विकि40बी/नं

  • कॉन्फ़िग विवरण : Wiki40B डेटासेट के लिए नहीं।

  • डेटासेट का आकार : 382.03 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 10,588
'train' 190,588
'validation' 10,547

विकि40बी/रो

  • कॉन्फ़िगरेशन विवरण : ro के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 319.68 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 7,870
'train' 139,615
'validation' 7,624

विकी40बी/स्क

  • कॉन्फ़िग विवरण : sk के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 170.20 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 5,741
'train' 103,095
'validation' 5,604

विकी40बी/एसएल

  • कॉन्फ़िग विवरण : विकी40बी डेटासेट एसएल के लिए।

  • डेटासेट का आकार : 157.38 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 3,341
'train' 60,927
'validation' 3,287

विकी40बी/एसआर

  • कॉन्फ़िग विवरण : sr के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 582.20 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 17,997
'train' 327,313
'validation' 18,100

विकी40बी/एसवी

  • कॉन्फ़िग विवरण : sv के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 613.62 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 22,291
'train' 400,742
'validation' 22,263

विकी40बी/टीएल

  • कॉन्फ़िग विवरण : tl के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 29.04 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,446
'train' 25,940
'validation' 1,472

विकी40बी/यूके

  • कॉन्फ़िग विवरण : ब्रिटेन के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 1.67 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 26,581
'train' 477,618
'validation' 26,324

विकी40बी/vi

  • कॉन्फ़िगरेशन विवरण : vi के लिए Wiki40B डेटासेट।

  • डेटासेट का आकार : 497.70 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 7,942
'train' 146,255
'validation' 8,195