- विवरण :
40+ विकिपीडिया भाषाओं के लिए क्लीन-अप पाठ पृष्ठों के संस्करण संस्थाओं के अनुरूप हैं। डेटासेट में प्रति भाषा ट्रेन/देव/परीक्षण विभाजन होते हैं। असंबद्धता पृष्ठों, पुनर्निर्देशित पृष्ठों, हटाए गए पृष्ठों और गैर-इकाई पृष्ठों को हटाने के लिए डेटासेट को पृष्ठ फ़िल्टरिंग द्वारा साफ किया जाता है। प्रत्येक उदाहरण में इकाई का विकिडेटा आईडी, और पेज प्रोसेसिंग के बाद पूरा विकिपीडिया लेख शामिल है जो गैर-सामग्री अनुभागों और संरचित वस्तुओं को हटा देता है। इस कॉर्पस पर प्रशिक्षित भाषा मॉडल - जिसमें 41 मोनोलिंगुअल मॉडल और 2 बहुभाषी मॉडल शामिल हैं - https://tfhub.dev/google/collections/ पर देखे जा सकते हैं। विकि40बी-एलएम/1.
स्रोत कोड :
tfds.text.Wiki40b
संस्करण :
-
1.3.0
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
Unknown size
फ़ीचर संरचना :
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
मूलपाठ | मूलपाठ | डोरी | ||
version_id | मूलपाठ | डोरी | ||
wikidata_id | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/hi (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फ़िगरेशन विवरण : en के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
9.91 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 162,274 |
'train' | 2,926,536 |
'validation' | 163,597 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/एआर
कॉन्फ़िग विवरण : ar के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
833.20 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 12,271 |
'train' | 220,885 |
'validation' | 12,198 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/zh-cn
कॉन्फ़िग विवरण : zh-cn के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
985.53 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 30,355 |
'train' | 549,672 |
'validation' | 30,299 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/zh-tw
कॉन्फ़िग विवरण : zh-tw के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
986.45 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 30,670 |
'train' | 552,031 |
'validation' | 30,739 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/एनएल
कॉन्फ़िग विवरण : nl के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
961.82 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 24,776 |
'train' | 447,555 |
'validation' | 25,201 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/एफआर
कॉन्फ़िग विवरण : fr के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
3.37 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 68,004 |
'train' | 1,227,206 |
'validation' | 68,655 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/डी
कॉन्फ़िग विवरण : विकी40बी डेटासेट डी के लिए।
डेटासेट का आकार :
4.78 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 86,594 |
'train' | 1,554,910 |
'validation' | 86,068 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/इट
कॉन्फ़िग विवरण : इसके लिए Wiki40B डेटासेट।
डेटासेट का आकार :
2.00 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 40,443 |
'train' | 732,609 |
'validation' | 40,684 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/जा
कॉन्फ़िग विवरण : ja के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
2.19 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 41,268 |
'train' | 745,392 |
'validation' | 41,576 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/को
कॉन्फ़िग विवरण : ko के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
453.98 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 10,802 |
'train' | 194,977 |
'validation' | 10,805 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/पीएल
कॉन्फ़िग विवरण : pl के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
1.03 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 27,987 |
'train' | 505,191 |
'validation' | 28,310 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/पीटी
कॉन्फ़िग विवरण : पीटी के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
1.08 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 22,693 |
'train' | 406,507 |
'validation' | 22,301 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/आरयू
विन्यास विवरण : आरयू के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
4.13 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 51,885 |
'train' | 926,037 |
'validation' | 51,287 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/एस
कॉन्फ़िग विवरण : es के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
2.70 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 48,764 |
'train' | 872,541 |
'validation' | 48,592 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/थ
कॉन्फ़िग विवरण : वें के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
326.29 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 3,114 |
'train' | 56,798 |
'validation' | 3,093 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/टीआर
कॉन्फ़िग विवरण : tr के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
308.87 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 7,890 |
'train' | 142,576 |
'validation' | 7,845 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/बीजी
कॉन्फ़िगरेशन विवरण : बीजी के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
433.20 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 7,289 |
'train' | 130,670 |
'validation' | 7,259 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/सीए
कॉन्फ़िग विवरण : सीए के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
753.00 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 15,568 |
'train' | 277,313 |
'validation' | 15,362 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/सीएस
कॉन्फ़िग विवरण : सीएस के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
631.84 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 12,984 |
'train' | 235,971 |
'validation' | 13,096 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/दा
कॉन्फ़िग विवरण : दा के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
240.51 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 6,219 |
'train' | 109,486 |
'validation' | 6,173 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/एल
कॉन्फ़िग विवरण : el के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
524.77 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 5,261 |
'train' | 93,596 |
'validation' | 5,130 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/एट
कॉन्फ़िग विवरण : Wiki40B डेटासेट आदि के लिए।
डेटासेट का आकार :
184.07 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 6,205 |
'train' | 114,464 |
'validation' | 6,351 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/फा
कॉन्फ़िग विवरण : fa के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
482.55 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 11,262 |
'train' | 203,145 |
'validation' | 11,180 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/फाई
कॉन्फ़िग विवरण : fi के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
534.13 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 14,179 |
'train' | 255,822 |
'validation' | 13,962 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/हे
कॉन्फ़िग विवरण : उसके लिए Wiki40B डेटासेट।
डेटासेट का आकार :
869.51 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 9,344 |
'train' | 165,359 |
'validation' | 9,231 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/हाय
कॉन्फ़िग विवरण : हाय के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
277.56 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,643 |
'train' | 45,737 |
'validation' | 2,596 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/घंटा
कॉन्फ़िग विवरण : Wiki40B डेटासेट घंटे के लिए।
डेटासेट का आकार :
235.58 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 5,724 |
'train' | 103,857 |
'validation' | 5,792 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/हू
कॉन्फ़िग विवरण : hu के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
634.25 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 15,258 |
'train' | 273,248 |
'validation' | 15,208 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/आईडी
कॉन्फ़िग विवरण : आईडी के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
334.06 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 8,598 |
'train' | 156,255 |
'validation' | 8,714 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/ली
विन्यास विवरण : लेफ्टिनेंट के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
140.46 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 4,683 |
'train' | 84,854 |
'validation' | 4,754 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/एल.वी
कॉन्फ़िग विवरण : lv के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
80.07 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 1,932 |
'train' | 33,064 |
'validation' | 1,857 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/एमएस
कॉन्फ़िग विवरण : एमएस के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
142.49 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 5,235 |
'train' | 97,509 |
'validation' | 5,357 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/नं
कॉन्फ़िग विवरण : Wiki40B डेटासेट के लिए नहीं।
डेटासेट का आकार :
382.03 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 10,588 |
'train' | 190,588 |
'validation' | 10,547 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/रो
कॉन्फ़िगरेशन विवरण : ro के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
319.68 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 7,870 |
'train' | 139,615 |
'validation' | 7,624 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/स्क
कॉन्फ़िग विवरण : sk के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
170.20 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 5,741 |
'train' | 103,095 |
'validation' | 5,604 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/एसएल
कॉन्फ़िग विवरण : विकी40बी डेटासेट एसएल के लिए।
डेटासेट का आकार :
157.38 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 3,341 |
'train' | 60,927 |
'validation' | 3,287 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/एसआर
कॉन्फ़िग विवरण : sr के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
582.20 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 17,997 |
'train' | 327,313 |
'validation' | 18,100 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/एसवी
कॉन्फ़िग विवरण : sv के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
613.62 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 22,291 |
'train' | 400,742 |
'validation' | 22,263 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/टीएल
कॉन्फ़िग विवरण : tl के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
29.04 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 1,446 |
'train' | 25,940 |
'validation' | 1,472 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/यूके
कॉन्फ़िग विवरण : ब्रिटेन के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
1.67 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 26,581 |
'train' | 477,618 |
'validation' | 26,324 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/vi
कॉन्फ़िगरेशन विवरण : vi के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
497.70 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 7,942 |
'train' | 146,255 |
'validation' | 8,195 |
- उदाहरण ( tfds.as_dataframe ):