wiki40b

  • תיאור :

טקסט ניקוי עבור 40+ שפות ויקיפדיה מהדורות של דפים תואמות לישויות. למערכי הנתונים יש פיצולי רכבת/פיתוח/בדיקות לכל שפה. מערך הנתונים מנוקה על ידי סינון דפים כדי להסיר דפי ביעור, דפים להפניה מחדש, דפים שנמחקו ודפים שאינם ישות. כל דוגמה מכילה את מזהה הוויקיפדיה של הישות, ואת המאמר המלא בוויקיפדיה לאחר עיבוד העמוד, שמסיר קטעים שאינם מכילים תוכן ואובייקטים מובנים. ניתן למצוא את דגמי השפה שהוכשרו בקורפוס זה - כולל 41 מודלים חד לשוניים ו-2 מודלים רב לשוניים - בכתובת https://tfhub.dev/google/collections/wiki40b-lm/1

FeaturesDict({
    'text': Text(shape=(), dtype=string),
    'version_id': Text(shape=(), dtype=string),
    'wikidata_id': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
טֶקסט טֶקסט חוּט
version_id טֶקסט חוּט
wikidata_id טֶקסט חוּט
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b/en (תצורת ברירת המחדל)

  • תיאור תצורה : מערך נתונים של Wiki40B עבור en.

  • גודל מערך נתונים : 9.91 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 162,274
'train' 2,926,536
'validation' 163,597

wiki40b/ar

  • תיאור תצורה : מערך נתונים של Wiki40B עבור ar.

  • גודל ערכת נתונים : 833.20 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 12,271
'train' 220,885
'validation' 12,198

wiki40b/zh-cn

  • תיאור תצורה : מערך נתונים של Wiki40B עבור zh-cn.

  • גודל ערכת נתונים : 985.53 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 30,355
'train' 549,672
'validation' 30,299

wiki40b/zh-tw

  • תיאור תצורה : מערך נתונים של Wiki40B עבור zh-tw.

  • גודל ערכת נתונים : 986.45 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 30,670
'train' 552,031
'validation' 30,739

wiki40b/nl

  • תיאור תצורה : מערך נתונים של Wiki40B עבור nl.

  • גודל ערכת נתונים : 961.82 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 24,776
'train' 447,555
'validation' 25,201

wiki40b/fr

  • תיאור תצורה : מערך נתונים של Wiki40B עבור fr.

  • גודל מערך נתונים : 3.37 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 68,004
'train' 1,227,206
'validation' 68,655

wiki40b/de

  • תיאור תצורה : מערך נתונים של Wiki40B עבור de.

  • גודל מערך נתונים : 4.78 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 86,594
'train' 1,554,910
'validation' 86,068

wiki40b/it

  • תיאור תצורה : מערך נתונים של Wiki40B עבורו.

  • גודל מערך נתונים : 2.00 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 40,443
'train' 732,609
'validation' 40,684

wiki40b/ja

  • תיאור תצורה : מערך נתונים של Wiki40B עבור ja.

  • גודל ערכת נתונים : 2.19 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 41,268
'train' 745,392
'validation' 41,576

wiki40b/ko

  • תיאור תצורה : מערך נתונים של Wiki40B עבור ko.

  • גודל מערך נתונים : 453.98 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 10,802
'train' 194,977
'validation' 10,805

wiki40b/pl

  • תיאור תצורה : מערך נתונים של Wiki40B עבור pl.

  • גודל מערך נתונים : 1.03 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 27,987
'train' 505,191
'validation' 28,310

wiki40b/pt

  • תיאור תצורה : מערך נתונים של Wiki40B עבור pt.

  • גודל מערך נתונים : 1.08 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 22,693
'train' 406,507
'validation' 22,301

wiki40b/ru

  • תיאור תצורה : מערך נתונים של Wiki40B עבור ru.

  • גודל מערך נתונים : 4.13 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 51,885
'train' 926,037
'validation' 51,287

wiki40b/es

  • תיאור תצורה : מערך נתונים של Wiki40B עבור es.

  • גודל מערך נתונים : 2.70 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 48,764
'train' 872,541
'validation' 48,592

wiki40b/th

  • תיאור תצורה : מערך נתונים של Wiki40B עבור th.

  • גודל ערכת נתונים : 326.29 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 3,114
'train' 56,798
'validation' 3,093

wiki40b/tr

  • תיאור תצורה : מערך נתונים של Wiki40B עבור tr.

  • גודל ערכת נתונים : 308.87 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 7,890
'train' 142,576
'validation' 7,845

wiki40b/bg

  • תיאור תצורה : מערך נתונים של Wiki40B עבור bg.

  • גודל ערכת נתונים : 433.20 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 7,289
'train' 130,670
'validation' 7,259

wiki40b/ca

  • תיאור תצורה : מערך נתונים של Wiki40B עבור כ.

  • גודל ערכת נתונים : 753.00 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 15,568
'train' 277,313
'validation' 15,362

wiki40b/cs

  • תיאור תצורה : מערך נתונים של Wiki40B עבור cs.

  • גודל מערך נתונים : 631.84 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 12,984
'train' 235,971
'validation' 13,096

wiki40b/da

  • תיאור תצורה : מערך נתונים של Wiki40B עבור da.

  • גודל מערך נתונים : 240.51 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר shuffle_files=False (רכבת)

  • פיצולים :

לְפַצֵל דוגמאות
'test' 6,219
'train' 109,486
'validation' 6,173

wiki40b/el

  • תיאור תצורה : מערך נתונים של Wiki40B עבור el.

  • גודל ערכת נתונים : 524.77 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 5,261
'train' 93,596
'validation' 5,130

wiki40b/et

  • תיאור תצורה : מערך נתונים של Wiki40B עבור et.

  • גודל ערכת נתונים : 184.07 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר shuffle_files=False (רכבת)

  • פיצולים :

לְפַצֵל דוגמאות
'test' 6,205
'train' 114,464
'validation' 6,351

wiki40b/fa

  • תיאור תצורה : מערך נתונים של Wiki40B עבור fa.

  • גודל מערך נתונים : 482.55 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 11,262
'train' 203,145
'validation' 11,180

wiki40b/fi

  • תיאור תצורה : מערך נתונים של Wiki40B עבור fi.

  • גודל מערך נתונים : 534.13 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 14,179
'train' 255,822
'validation' 13,962

wiki40b/he

  • תיאור תצורה : מערך נתונים של Wiki40B עבור he.

  • גודל מערך נתונים : 869.51 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 9,344
'train' 165,359
'validation' 9,231

wiki40b/hi

  • תיאור תצורה : מערך נתונים של Wiki40B עבור hi.

  • גודל מערך נתונים : 277.56 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 2,643
'train' 45,737
'validation' 2,596

wiki40b/hr

  • תיאור תצורה : מערך נתונים של Wiki40B עבור hr.

  • גודל מערך נתונים : 235.58 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר shuffle_files=False (רכבת)

  • פיצולים :

לְפַצֵל דוגמאות
'test' 5,724
'train' 103,857
'validation' 5,792

wiki40b/hu

  • תיאור תצורה : מערך נתונים של Wiki40B עבור hu.

  • גודל ערכת נתונים : 634.25 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 15,258
'train' 273,248
'validation' 15,208

wiki40b/id

  • תיאור תצורה : מערך נתונים של Wiki40B עבור מזהה.

  • גודל מערך נתונים : 334.06 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 8,598
'train' 156,255
'validation' 8,714

wiki40b/lt

  • תיאור תצורה : מערך נתונים של Wiki40B עבור lt.

  • גודל ערכת נתונים : 140.46 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 4,683
'train' 84,854
'validation' 4,754

wiki40b/lv

  • תיאור תצורה : מערך נתונים של Wiki40B עבור lv.

  • גודל ערכת נתונים : 80.07 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,932
'train' 33,064
'validation' 1,857

wiki40b/ms

  • תיאור תצורה : מערך נתונים של Wiki40B עבור ms.

  • גודל מערך נתונים : 142.49 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר shuffle_files=False (רכבת)

  • פיצולים :

לְפַצֵל דוגמאות
'test' 5,235
'train' 97,509
'validation' 5,357

wiki40b/no

  • תיאור תצורה : מערך נתונים של Wiki40B עבור מס.

  • גודל ערכת נתונים : 382.03 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 10,588
'train' 190,588
'validation' 10,547

wiki40b/ro

  • תיאור תצורה : מערך נתונים של Wiki40B עבור ro.

  • גודל ערכת נתונים : 319.68 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 7,870
'train' 139,615
'validation' 7,624

wiki40b/sk

  • תיאור תצורה : מערך נתונים של Wiki40B עבור sk.

  • גודל ערכת נתונים : 170.20 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר shuffle_files=False (רכבת)

  • פיצולים :

לְפַצֵל דוגמאות
'test' 5,741
'train' 103,095
'validation' 5,604

wiki40b/sl

  • תיאור תצורה : מערך נתונים של Wiki40B עבור sl.

  • גודל מערך נתונים : 157.38 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר shuffle_files=False (רכבת)

  • פיצולים :

לְפַצֵל דוגמאות
'test' 3,341
'train' 60,927
'validation' 3,287

wiki40b/sr

  • תיאור תצורה : מערך נתונים של Wiki40B עבור sr.

  • גודל ערכת נתונים : 582.20 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 17,997
'train' 327,313
'validation' 18,100

wiki40b/sv

  • תיאור תצורה : מערך נתונים של Wiki40B עבור sv.

  • גודל מערך נתונים : 613.62 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 22,291
'train' 400,742
'validation' 22,263

wiki40b/tl

  • תיאור תצורה : מערך נתונים של Wiki40B עבור tl.

  • גודל מערך נתונים : 29.04 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,446
'train' 25,940
'validation' 1,472

wiki40b/uk

  • תיאור תצורה : מערך נתונים של Wiki40B עבור בריטניה.

  • גודל מערך נתונים : 1.67 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 26,581
'train' 477,618
'validation' 26,324

wiki40b/vi

  • תיאור תצורה : מערך נתונים של Wiki40B עבור vi.

  • גודל ערכת נתונים : 497.70 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 7,942
'train' 146,255
'validation' 8,195