ويكي 40 ب

  • الوصف :

نص التنظيف لأكثر من 40 إصدارًا من صفحات ويكيبيديا يتوافق مع الكيانات. تحتوي مجموعات البيانات على تقسيمات تدريب/تطوير/اختبار لكل لغة. يتم تنظيف مجموعة البيانات عن طريق تصفية الصفحات لإزالة صفحات التوضيح، وصفحات إعادة التوجيه، والصفحات المحذوفة، والصفحات غير المتعلقة بالكيان. يحتوي كل مثال على معرف ويكي بيانات الكيان، ومقالة ويكيبيديا الكاملة بعد معالجة الصفحة التي تزيل الأقسام غير المتعلقة بالمحتوى والكائنات المنظمة. يمكن العثور على نماذج اللغة التي تم تدريبها على هذه المجموعة - بما في ذلك 41 نموذجًا أحادي اللغة ونموذجين متعددي اللغات - على https://tfhub.dev/google/collections/wiki40b-lm/1

FeaturesDict({
    'text': Text(shape=(), dtype=string),
    'version_id': Text(shape=(), dtype=string),
    'wikidata_id': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف
المميزاتDict
نص نص خيط
version_id نص خيط
wikidata_id نص خيط
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b/en (التكوين الافتراضي)

  • وصف التكوين : مجموعة بيانات Wiki40B لـ en.

  • حجم مجموعة البيانات : 9.91 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 162,274
'train' 2,926,536
'validation' 163,597

wiki40b/ar

  • وصف التكوين : مجموعة بيانات Wiki40B لـ ar.

  • حجم مجموعة البيانات : 833.20 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 12,271
'train' 220,885
'validation' 12,198

wiki40b/zh-cn

  • وصف التكوين : مجموعة بيانات Wiki40B لـ zh-cn.

  • حجم مجموعة البيانات : 985.53 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 30,355
'train' 549,672
'validation' 30,299

wiki40b/zh-tw

  • وصف التكوين : مجموعة بيانات Wiki40B لـ zh-tw.

  • حجم مجموعة البيانات : 986.45 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 30,670
'train' 552,031
'validation' 30,739

wiki40b/nl

  • وصف التكوين : مجموعة بيانات Wiki40B لـ nl.

  • حجم مجموعة البيانات : 961.82 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 24,776
'train' 447,555
'validation' 25,201

wiki40b/الاب

  • وصف التكوين : مجموعة بيانات Wiki40B لـ fr.

  • حجم مجموعة البيانات : 3.37 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 68,004
'train' 1,227,206
'validation' 68,655

ويكي40ب/دي

  • وصف التكوين : مجموعة بيانات Wiki40B لـ de.

  • حجم مجموعة البيانات : 4.78 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 86,594
'train' 1,554,910
'validation' 86,068

wiki40b/it

  • وصف التكوين : مجموعة بيانات Wiki40B الخاصة به.

  • حجم مجموعة البيانات : 2.00 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 40,443
'train' 732,609
'validation' 40,684

wiki40b/ja

  • وصف التكوين : مجموعة بيانات Wiki40B لـ ja.

  • حجم مجموعة البيانات : 2.19 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 41,268
'train' 745,392
'validation' 41,576

wiki40b/كو

  • وصف التكوين : مجموعة بيانات Wiki40B لـ ko.

  • حجم مجموعة البيانات : 453.98 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 10802
'train' 194,977
'validation' 10,805

wiki40b/pl

  • وصف التكوين : مجموعة بيانات Wiki40B لـ pl.

  • حجم مجموعة البيانات : 1.03 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 27,987
'train' 505,191
'validation' 28,310

wiki40b/pt

  • وصف التكوين : مجموعة بيانات Wiki40B لـ pt.

  • حجم مجموعة البيانات : 1.08 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 22,693
'train' 406,507
'validation' 22,301

wiki40b/ru

  • وصف التكوين : مجموعة بيانات Wiki40B لـ ru.

  • حجم مجموعة البيانات : 4.13 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 51,885
'train' 926,037
'validation' 51,287

ويكي40ب/إس

  • وصف التكوين : مجموعة بيانات Wiki40B لـ es.

  • حجم مجموعة البيانات : 2.70 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 48,764
'train' 872,541
'validation' 48,592

wiki40b/th

  • وصف التكوين : مجموعة بيانات Wiki40B لـ th.

  • حجم مجموعة البيانات : 326.29 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 3,114
'train' 56,798
'validation' 3,093

wiki40b/tr

  • وصف التكوين : مجموعة بيانات Wiki40B لـ tr.

  • حجم مجموعة البيانات : 308.87 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 7,890
'train' 142,576
'validation' 7,845

ويكي40ب/بج

  • وصف التكوين : مجموعة بيانات Wiki40B لـ bg.

  • حجم مجموعة البيانات : 433.20 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 7,289
'train' 130,670
'validation' 7,259

wiki40b/ca

  • وصف التكوين : مجموعة بيانات Wiki40B لـ ca.

  • حجم مجموعة البيانات : 753.00 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 15,568
'train' 277,313
'validation' 15,362

wiki40b/cs

  • وصف التكوين : مجموعة بيانات Wiki40B لـ cs.

  • حجم مجموعة البيانات : 631.84 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 12,984
'train' 235,971
'validation' 13,096

ويكي40ب/دا

  • وصف التكوين : مجموعة بيانات Wiki40B لـ da.

  • حجم مجموعة البيانات : 240.51 MiB

  • تخزين مؤقت تلقائي ( الوثائق ): نعم (اختبار، التحقق من الصحة)، فقط عندما تكون shuffle_files=False (تدريب)

  • الإنشقاقات :

ينقسم أمثلة
'test' 6,219
'train' 109,486
'validation' 6,173

wiki40b/el

  • وصف التكوين : مجموعة بيانات Wiki40B لـ el.

  • حجم مجموعة البيانات : 524.77 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 5,261
'train' 93,596
'validation' 5,130

ويكي40ب/وآخرون

  • وصف التكوين : مجموعة بيانات Wiki40B لـ et.

  • حجم مجموعة البيانات : 184.07 MiB

  • تخزين مؤقت تلقائي ( الوثائق ): نعم (اختبار، التحقق من الصحة)، فقط عندما تكون shuffle_files=False (تدريب)

  • الإنشقاقات :

ينقسم أمثلة
'test' 6,205
'train' 114,464
'validation' 6,351

wiki40b/fa

  • وصف التكوين : مجموعة بيانات Wiki40B لـ fa.

  • حجم مجموعة البيانات : 482.55 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 11,262
'train' 203,145
'validation' 11,180

wiki40b/fi

  • وصف التكوين : مجموعة بيانات Wiki40B لـ fi.

  • حجم مجموعة البيانات : 534.13 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 14,179
'train' 255,822
'validation' 13,962

ويكي40ب/هي

  • وصف التكوين : مجموعة بيانات Wiki40B له.

  • حجم مجموعة البيانات : 869.51 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 9,344
'train' 165,359
'validation' 9,231

ويكي40ب/مرحبا

  • وصف التكوين : مجموعة بيانات Wiki40B لـ hi.

  • حجم مجموعة البيانات : 277.56 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 2,643
'train' 45,737
'validation' 2,596

ويكي40ب/ساعة

  • وصف التكوين : مجموعة بيانات Wiki40B لـ hr.

  • حجم مجموعة البيانات : 235.58 MiB

  • تخزين مؤقت تلقائي ( الوثائق ): نعم (اختبار، التحقق من الصحة)، فقط عندما تكون shuffle_files=False (تدريب)

  • الإنشقاقات :

ينقسم أمثلة
'test' 5,724
'train' 103,857
'validation' 5,792

wiki40b/هو

  • وصف التكوين : مجموعة بيانات Wiki40B لـ hu.

  • حجم مجموعة البيانات : 634.25 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 15,258
'train' 273,248
'validation' 15,208

wiki40b/معرف

  • وصف التكوين : مجموعة بيانات Wiki40B للمعرف.

  • حجم مجموعة البيانات : 334.06 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 8,598
'train' 156,255
'validation' 8,714

ويكي40ب/لتر

  • وصف التكوين : مجموعة بيانات Wiki40B لـ lt.

  • حجم مجموعة البيانات : 140.46 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الإنشقاقات :

ينقسم أمثلة
'test' 4,683
'train' 84,854
'validation' 4,754

wiki40b/lv

  • وصف التكوين : مجموعة بيانات Wiki40B للمستوى lv.

  • حجم مجموعة البيانات : 80.07 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الإنشقاقات :

ينقسم أمثلة
'test' 1,932
'train' 33,064
'validation' 1,857

wiki40b/ مللي ثانية

  • وصف التكوين : مجموعة بيانات Wiki40B لـ ms.

  • حجم مجموعة البيانات : 142.49 MiB

  • تخزين مؤقت تلقائي ( الوثائق ): نعم (اختبار، التحقق من الصحة)، فقط عندما تكون shuffle_files=False (تدريب)

  • الإنشقاقات :

ينقسم أمثلة
'test' 5,235
'train' 97,509
'validation' 5,357

ويكي40ب/لا

  • وصف التكوين : مجموعة بيانات Wiki40B للرقم.

  • حجم مجموعة البيانات : 382.03 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 10,588
'train' 190,588
'validation' 10,547

wiki40b/ro

  • وصف التكوين : مجموعة بيانات Wiki40B لـ ro.

  • حجم مجموعة البيانات : 319.68 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 7,870
'train' 139,615
'validation' 7,624

wiki40b/sk

  • وصف التكوين : مجموعة بيانات Wiki40B لـ sk.

  • حجم مجموعة البيانات : 170.20 MiB

  • تخزين مؤقت تلقائي ( الوثائق ): نعم (اختبار، التحقق من الصحة)، فقط عندما تكون shuffle_files=False (تدريب)

  • الإنشقاقات :

ينقسم أمثلة
'test' 5,741
'train' 103,095
'validation' 5,604

wiki40b/sl

  • وصف التكوين : مجموعة بيانات Wiki40B لـ sl.

  • حجم مجموعة البيانات : 157.38 MiB

  • تخزين مؤقت تلقائي ( الوثائق ): نعم (اختبار، التحقق من الصحة)، فقط عندما تكون shuffle_files=False (تدريب)

  • الإنشقاقات :

ينقسم أمثلة
'test' 3,341
'train' 60,927
'validation' 3,287

ويكي40ب/ريال

  • وصف التكوين : مجموعة بيانات Wiki40B لـ sr.

  • حجم مجموعة البيانات : 582.20 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 17,997
'train' 327,313
'validation' 18,100

wiki40b/sv

  • وصف التكوين : مجموعة بيانات Wiki40B لـ sv.

  • حجم مجموعة البيانات : 613.62 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 22,291
'train' 400,742
'validation' 22,263

wiki40b/tl

  • وصف التكوين : مجموعة بيانات Wiki40B لـ tl.

  • حجم مجموعة البيانات : 29.04 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الإنشقاقات :

ينقسم أمثلة
'test' 1,446
'train' 25,940
'validation' 1,472

ويكي40ب/المملكة المتحدة

  • وصف التكوين : مجموعة بيانات Wiki40B للمملكة المتحدة.

  • حجم مجموعة البيانات : 1.67 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 26,581
'train' 477,618
'validation' 26,324

wiki40b/السادس

  • وصف التكوين : مجموعة بيانات Wiki40B لـ vi.

  • حجم مجموعة البيانات : 497.70 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'test' 7,942
'train' 146,255
'validation' 8,195