- תיאור :
טקסט ניקוי עבור 40+ שפות ויקיפדיה מהדורות של דפים תואמות לישויות. למערכי הנתונים יש פיצולי רכבת/פיתוח/בדיקות לכל שפה. מערך הנתונים מנוקה על ידי סינון דפים כדי להסיר דפי ביעור, דפים להפניה מחדש, דפים שנמחקו ודפים שאינם ישות. כל דוגמה מכילה את מזהה הוויקיפדיה של הישות, ואת המאמר המלא בוויקיפדיה לאחר עיבוד העמוד, שמסיר קטעים שאינם מכילים תוכן ואובייקטים מובנים. ניתן למצוא את דגמי השפה שהוכשרו בקורפוס זה - כולל 41 מודלים חד לשוניים ו-2 מודלים רב לשוניים - בכתובת https://tfhub.dev/google/collections/wiki40b-lm/1
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://research.google/pubs/pub49029/
קוד מקור :
tfds.text.Wiki40b
גרסאות :
-
1.3.0
(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
Unknown size
מבנה תכונה :
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
טֶקסט | טֶקסט | חוּט | ||
version_id | טֶקסט | חוּט | ||
wikidata_id | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/en (תצורת ברירת המחדל)
תיאור תצורה : מערך נתונים של Wiki40B עבור en.
גודל מערך נתונים :
9.91 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 162,274 |
'train' | 2,926,536 |
'validation' | 163,597 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/ar
תיאור תצורה : מערך נתונים של Wiki40B עבור ar.
גודל ערכת נתונים :
833.20 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 12,271 |
'train' | 220,885 |
'validation' | 12,198 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/zh-cn
תיאור תצורה : מערך נתונים של Wiki40B עבור zh-cn.
גודל ערכת נתונים :
985.53 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 30,355 |
'train' | 549,672 |
'validation' | 30,299 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/zh-tw
תיאור תצורה : מערך נתונים של Wiki40B עבור zh-tw.
גודל ערכת נתונים :
986.45 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 30,670 |
'train' | 552,031 |
'validation' | 30,739 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/nl
תיאור תצורה : מערך נתונים של Wiki40B עבור nl.
גודל ערכת נתונים :
961.82 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 24,776 |
'train' | 447,555 |
'validation' | 25,201 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/fr
תיאור תצורה : מערך נתונים של Wiki40B עבור fr.
גודל מערך נתונים :
3.37 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 68,004 |
'train' | 1,227,206 |
'validation' | 68,655 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/de
תיאור תצורה : מערך נתונים של Wiki40B עבור de.
גודל מערך נתונים :
4.78 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 86,594 |
'train' | 1,554,910 |
'validation' | 86,068 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/it
תיאור תצורה : מערך נתונים של Wiki40B עבורו.
גודל מערך נתונים :
2.00 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 40,443 |
'train' | 732,609 |
'validation' | 40,684 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/ja
תיאור תצורה : מערך נתונים של Wiki40B עבור ja.
גודל ערכת נתונים :
2.19 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 41,268 |
'train' | 745,392 |
'validation' | 41,576 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/ko
תיאור תצורה : מערך נתונים של Wiki40B עבור ko.
גודל מערך נתונים :
453.98 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 10,802 |
'train' | 194,977 |
'validation' | 10,805 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/pl
תיאור תצורה : מערך נתונים של Wiki40B עבור pl.
גודל מערך נתונים :
1.03 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 27,987 |
'train' | 505,191 |
'validation' | 28,310 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/pt
תיאור תצורה : מערך נתונים של Wiki40B עבור pt.
גודל מערך נתונים :
1.08 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 22,693 |
'train' | 406,507 |
'validation' | 22,301 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/ru
תיאור תצורה : מערך נתונים של Wiki40B עבור ru.
גודל מערך נתונים :
4.13 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 51,885 |
'train' | 926,037 |
'validation' | 51,287 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/es
תיאור תצורה : מערך נתונים של Wiki40B עבור es.
גודל מערך נתונים :
2.70 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 48,764 |
'train' | 872,541 |
'validation' | 48,592 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/th
תיאור תצורה : מערך נתונים של Wiki40B עבור th.
גודל ערכת נתונים :
326.29 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 3,114 |
'train' | 56,798 |
'validation' | 3,093 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/tr
תיאור תצורה : מערך נתונים של Wiki40B עבור tr.
גודל ערכת נתונים :
308.87 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 7,890 |
'train' | 142,576 |
'validation' | 7,845 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/bg
תיאור תצורה : מערך נתונים של Wiki40B עבור bg.
גודל ערכת נתונים :
433.20 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 7,289 |
'train' | 130,670 |
'validation' | 7,259 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/ca
תיאור תצורה : מערך נתונים של Wiki40B עבור כ.
גודל ערכת נתונים :
753.00 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 15,568 |
'train' | 277,313 |
'validation' | 15,362 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/cs
תיאור תצורה : מערך נתונים של Wiki40B עבור cs.
גודל מערך נתונים :
631.84 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 12,984 |
'train' | 235,971 |
'validation' | 13,096 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/da
תיאור תצורה : מערך נתונים של Wiki40B עבור da.
גודל מערך נתונים :
240.51 MiB
שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 6,219 |
'train' | 109,486 |
'validation' | 6,173 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/el
תיאור תצורה : מערך נתונים של Wiki40B עבור el.
גודל ערכת נתונים :
524.77 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 5,261 |
'train' | 93,596 |
'validation' | 5,130 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/et
תיאור תצורה : מערך נתונים של Wiki40B עבור et.
גודל ערכת נתונים :
184.07 MiB
שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 6,205 |
'train' | 114,464 |
'validation' | 6,351 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/fa
תיאור תצורה : מערך נתונים של Wiki40B עבור fa.
גודל מערך נתונים :
482.55 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 11,262 |
'train' | 203,145 |
'validation' | 11,180 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/fi
תיאור תצורה : מערך נתונים של Wiki40B עבור fi.
גודל מערך נתונים :
534.13 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 14,179 |
'train' | 255,822 |
'validation' | 13,962 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/he
תיאור תצורה : מערך נתונים של Wiki40B עבור he.
גודל מערך נתונים :
869.51 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 9,344 |
'train' | 165,359 |
'validation' | 9,231 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/hi
תיאור תצורה : מערך נתונים של Wiki40B עבור hi.
גודל מערך נתונים :
277.56 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,643 |
'train' | 45,737 |
'validation' | 2,596 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/hr
תיאור תצורה : מערך נתונים של Wiki40B עבור hr.
גודל מערך נתונים :
235.58 MiB
שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 5,724 |
'train' | 103,857 |
'validation' | 5,792 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/hu
תיאור תצורה : מערך נתונים של Wiki40B עבור hu.
גודל ערכת נתונים :
634.25 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 15,258 |
'train' | 273,248 |
'validation' | 15,208 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/id
תיאור תצורה : מערך נתונים של Wiki40B עבור מזהה.
גודל מערך נתונים :
334.06 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 8,598 |
'train' | 156,255 |
'validation' | 8,714 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/lt
תיאור תצורה : מערך נתונים של Wiki40B עבור lt.
גודל ערכת נתונים :
140.46 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 4,683 |
'train' | 84,854 |
'validation' | 4,754 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/lv
תיאור תצורה : מערך נתונים של Wiki40B עבור lv.
גודל ערכת נתונים :
80.07 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,932 |
'train' | 33,064 |
'validation' | 1,857 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/ms
תיאור תצורה : מערך נתונים של Wiki40B עבור ms.
גודל מערך נתונים :
142.49 MiB
שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 5,235 |
'train' | 97,509 |
'validation' | 5,357 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/no
תיאור תצורה : מערך נתונים של Wiki40B עבור מס.
גודל ערכת נתונים :
382.03 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 10,588 |
'train' | 190,588 |
'validation' | 10,547 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/ro
תיאור תצורה : מערך נתונים של Wiki40B עבור ro.
גודל ערכת נתונים :
319.68 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 7,870 |
'train' | 139,615 |
'validation' | 7,624 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/sk
תיאור תצורה : מערך נתונים של Wiki40B עבור sk.
גודל ערכת נתונים :
170.20 MiB
שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 5,741 |
'train' | 103,095 |
'validation' | 5,604 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/sl
תיאור תצורה : מערך נתונים של Wiki40B עבור sl.
גודל מערך נתונים :
157.38 MiB
שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 3,341 |
'train' | 60,927 |
'validation' | 3,287 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/sr
תיאור תצורה : מערך נתונים של Wiki40B עבור sr.
גודל ערכת נתונים :
582.20 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 17,997 |
'train' | 327,313 |
'validation' | 18,100 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/sv
תיאור תצורה : מערך נתונים של Wiki40B עבור sv.
גודל מערך נתונים :
613.62 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 22,291 |
'train' | 400,742 |
'validation' | 22,263 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/tl
תיאור תצורה : מערך נתונים של Wiki40B עבור tl.
גודל מערך נתונים :
29.04 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,446 |
'train' | 25,940 |
'validation' | 1,472 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/uk
תיאור תצורה : מערך נתונים של Wiki40B עבור בריטניה.
גודל מערך נתונים :
1.67 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 26,581 |
'train' | 477,618 |
'validation' | 26,324 |
- דוגמאות ( tfds.as_dataframe ):
wiki40b/vi
תיאור תצורה : מערך נתונים של Wiki40B עבור vi.
גודל ערכת נתונים :
497.70 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 7,942 |
'train' | 146,255 |
'validation' | 8,195 |
- דוגמאות ( tfds.as_dataframe ):