09:00 पीएसटी पर एमएल संगोष्ठी इस मंगलवार, 19 अक्टूबर में पहले महिलाओं में ट्यून रजिस्टर अब

विकी40बी

  • विवरण:

पृष्ठों के ४०+ विकिपीडिया भाषाओं के संस्करणों के लिए क्लीन-अप टेक्स्ट संस्थाओं के अनुरूप है। डेटासेट में प्रति भाषा ट्रेन/देव/परीक्षण विभाजन होते हैं। असंबद्ध पृष्ठों, पुनर्निर्देशित पृष्ठों, हटाए गए पृष्ठों और गैर-इकाई पृष्ठों को हटाने के लिए पेज फ़िल्टरिंग द्वारा डेटासेट को साफ किया जाता है। प्रत्येक उदाहरण में इकाई की विकीडाटा आईडी और पृष्ठ संसाधन के बाद पूरा विकिपीडिया लेख शामिल है जो गैर-सामग्री अनुभागों और संरचित वस्तुओं को हटा देता है। इस कोष पर प्रशिक्षित भाषा मॉडल - 41 एकल-मॉडल, और 2 बहुभाषी मॉडल सहित - https पर पाया जा सकता: //tfhub.dev/ google / संग्रह / विकी40बी-एलएम/1.

  • होमपेज: https://research.google/pubs/pub49029/

  • स्रोत कोड: tfds.text.Wiki40b

  • संस्करण:

    • 1.3.0 (डिफ़ॉल्ट): नहीं रिलीज नोट्स।
  • डाउनलोड का आकार: Unknown size

  • विशेषताएं:

FeaturesDict({
    'text': Text(shape=(), dtype=tf.string),
    'version_id': Text(shape=(), dtype=tf.string),
    'wikidata_id': Text(shape=(), dtype=tf.string),
})
  • पर्यवेक्षित कुंजियों (देखें as_supervised डॉक ): None

  • चित्रा ( tfds.show_examples ): समर्थित नहीं।

  • प्रशस्ति पत्र:

@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b/hi (डिफ़ॉल्ट विन्यास)

  • कॉन्फ़िग विवरण: एन के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 9.91 GiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' १६२,२७४
'train' २,९२६,५३६
'validation' १६३,५९७

wiki40b/ar

  • कॉन्फ़िग विवरण: ar के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 833.20 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' १२,२७१
'train' २२०,८८५
'validation' १२,१९८

wiki40b/zh-cn

  • कॉन्फ़िग विवरण: zh-cn के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 985.53 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' ३०,३५५
'train' 549,672
'validation' ३०,२९९

wiki40b/zh-tw

  • कॉन्फ़िग विवरण: zh-tw Wiki40B डाटासेट।

  • डेटासेट का आकार: 986.45 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 30,670
'train' 552,031
'validation' 30,739

wiki40b/nl

  • कॉन्फ़िग विवरण: nl के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 961.82 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' २४,७७६
'train' 447,555
'validation' 25,201

wiki40b/fr

  • कॉन्फ़िग विवरण: fr के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 3.37 GiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' ६८,००४
'train' 1,227,206
'validation' 68,655

विकि40बी/डी

  • कॉन्फ़िग विवरण: डी के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 4.78 GiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' ८६,५९४
'train' 1,554,910
'validation' ८६,०६८

विकि40बी/आईटी

  • कॉन्फ़िग विवरण: इसके लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 2.00 GiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 40,443
'train' 732,609
'validation' 40,684

wiki40b/ja

  • कॉन्फ़िग विवरण: ja लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 2.19 GiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 41,268
'train' 745,392
'validation' 41,576

विकि40बी/को

  • कॉन्फ़िग विवरण: ko के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 453.98 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' १०,८०२
'train' १९४,९७७
'validation' १०,८०५

wiki40b/pl

  • कॉन्फ़िग विवरण: pl के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 1.03 GiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' २७,९८७
'train' 505,191
'validation' 28,310

विकी40बी/पीटी

  • कॉन्फ़िग विवरण: pt के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 1.08 GiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 22,693
'train' ४०६,५०७
'validation' 22,301

विकी40बी/आरयू

  • कॉन्फ़िग विवरण: आरयू के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 4.13 GiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 51,885
'train' 926,037
'validation' 51,287

wiki40b/es

  • कॉन्फ़िग विवरण: es के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 2.70 GiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 48,764
'train' ८७२,५४१
'validation' 48,592

wiki40b/th

  • कॉन्फ़िग विवरण: वें के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 326.29 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 3,114
'train' 56,798
'validation' 3,093

wiki40b/tr

  • कॉन्फ़िग विवरण: टीआर के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 308.87 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 7,890
'train' १४२,५७६
'validation' 7,845

विकी40बी/बीजी

  • कॉन्फ़िग विवरण: bg के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 433.20 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 7,289
'train' १३०,६७०
'validation' 7,259

wiki40b/ca

  • कॉन्फ़िग विवरण: सीए के लिए Wiki40B डाटासेट

  • डेटासेट का आकार: 753.00 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' १५,५६८
'train' २७७,३१३
'validation' १५,३६२

विकि40बी/सीएस

  • कॉन्फ़िग विवरण: सीएस के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 631.84 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 12,984
'train' 235,971
'validation' १३,०९६

विकि40बी/दिन

  • कॉन्फ़िग विवरण: दा के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 240.51 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ (परीक्षण, सत्यापन), केवल जब shuffle_files=False (ट्रेन)

  • विभाजन:

विभाजित करना उदाहरण
'test' 6,219
'train' 109,486
'validation' 6,173

wiki40b/el

  • कॉन्फ़िग विवरण: एल के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 524.77 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 5,261
'train' 93,596
'validation' 5,130

wiki40b/et

  • कॉन्फ़िग विवरण: एट के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 184.07 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ (परीक्षण, सत्यापन), केवल जब shuffle_files=False (ट्रेन)

  • विभाजन:

विभाजित करना उदाहरण
'test' 6,205
'train' ११४,४६४
'validation' 6,351

wiki40b/fa

  • कॉन्फ़िग विवरण: पिता के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 482.55 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 11,262
'train' 203,145
'validation' 11,180

विकि40बी/फाई

  • कॉन्फ़िग विवरण: इंटरनेट के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 534.13 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' १४,१७९
'train' २५५,८२२
'validation' १३,९६२

विकि40बी/हे

  • कॉन्फ़िग विवरण: वह के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 869.51 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 9,344
'train' 165,359
'validation' 9,231

विकि40बी/हाय

  • कॉन्फ़िग विवरण: हाय के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 277.56 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' २,६४३
'train' 45,737
'validation' २,५९६

विकि40बी/घंटा

  • कॉन्फ़िग विवरण: घंटा के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 235.58 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ (परीक्षण, सत्यापन), केवल जब shuffle_files=False (ट्रेन)

  • विभाजन:

विभाजित करना उदाहरण
'test' 5,724
'train' १०३,८५७
'validation' 5,792

wiki40b/hu

  • कॉन्फ़िग विवरण: hu के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 634.25 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' १५,२५८
'train' २७३,२४८
'validation' 15,208

विकि40बी/आईडी

  • कॉन्फ़िग विवरण: आईडी के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 334.06 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 8,598
'train' १५६,२५५
'validation' 8,714

विकी40बी/एलटी

  • कॉन्फ़िग विवरण: lt के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 140.46 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ

  • विभाजन:

विभाजित करना उदाहरण
'test' 4,683
'train' ८४,८५४
'validation' 4,754

विकि40बी/एलवी

  • कॉन्फ़िग विवरण: lv के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 80.07 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ

  • विभाजन:

विभाजित करना उदाहरण
'test' 1,932
'train' 33,064
'validation' 1,857

विकि40बी/एमएस

  • कॉन्फ़िग विवरण: एमएस के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 142.49 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ (परीक्षण, सत्यापन), केवल जब shuffle_files=False (ट्रेन)

  • विभाजन:

विभाजित करना उदाहरण
'test' 5,235
'train' ९७,५०९
'validation' 5,357

wiki40b/नहीं

  • कॉन्फ़िग विवरण: कोई के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 382.03 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' १०,५८८
'train' 190,588
'validation' १०,५४७

विकि40बी/आरओ

  • कॉन्फ़िग विवरण: ro के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 319.68 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 7,870
'train' 139,615
'validation' 7,624

विकि40बी/स्क

  • कॉन्फ़िग विवरण: sk के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 170.20 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ (परीक्षण, सत्यापन), केवल जब shuffle_files=False (ट्रेन)

  • विभाजन:

विभाजित करना उदाहरण
'test' 5,741
'train' 103,095
'validation' 5,604

wiki40b/sl

  • कॉन्फ़िग विवरण: sl के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 157.38 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ (परीक्षण, सत्यापन), केवल जब shuffle_files=False (ट्रेन)

  • विभाजन:

विभाजित करना उदाहरण
'test' 3,341
'train' 60,927
'validation' 3,287

wiki40b/sr

  • कॉन्फ़िग विवरण: sr के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 582.20 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' १७,९९७
'train' 327,313
'validation' 18,100

विकि40बी/एसवी

  • कॉन्फ़िग विवरण: एसवी के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 613.62 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 22,291
'train' 400,742
'validation' 22,263

विकि40बी/टीएल

  • कॉन्फ़िग विवरण: tl के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 29.04 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ

  • विभाजन:

विभाजित करना उदाहरण
'test' 1,446
'train' २५,९४०
'validation' 1,472

विकी40बी/यूके

  • कॉन्फ़िग विवरण: ब्रिटेन के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 1.67 GiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' २६,५८१
'train' 477,618
'validation' 26,324

विकि40बी/vi

  • कॉन्फ़िग विवरण: vi के लिए Wiki40B डाटासेट।

  • डेटासेट का आकार: 497.70 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 7,942
'train' १४६,२५५
'validation' 8,195