لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

ويكي 40 ب

  • الوصف :

يتوافق نص التنظيف لأكثر من 40 إصدارًا من صفحات لغات ويكيبيديا مع الكيانات. تحتوي مجموعات البيانات على تقسيمات تدريب / مطور / اختبار لكل لغة. يتم تنظيف مجموعة البيانات عن طريق تصفية الصفحات لإزالة صفحات توضيح ، وإعادة توجيه الصفحات ، والصفحات المحذوفة ، والصفحات غير التابعة للكيان. يحتوي كل مثال على معرف wikidata للكيان ، ومقال Wikipedia الكامل بعد معالجة الصفحة التي تزيل الأقسام التي لا تحتوي على محتوى والكائنات المهيكلة. يمكن العثور على نماذج اللغة المدربة على هذه المجموعة - بما في ذلك 41 نموذجًا أحادي اللغة ونموذجين متعددي اللغات - على https: //tfhub.dev/google/collections/wiki40b-lm/1.

FeaturesDict({
    'text': Text(shape=(), dtype=tf.string),
    'version_id': Text(shape=(), dtype=tf.string),
    'wikidata_id': Text(shape=(), dtype=tf.string),
})
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b / en (التكوين الافتراضي)

  • وصف التكوين : مجموعة بيانات Wiki40B لـ en.

  • حجم مجموعة البيانات : 9.91 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 162.274
'train' 2،926،536
'validation' 163.597

ويكي 40 ب / ع

  • وصف التكوين : مجموعة بيانات Wiki40B لـ ar.

  • حجم مجموعة البيانات : 833.20 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 12271
'train' 220،885
'validation' 12198

wiki40b / zh-cn

  • وصف التكوين : مجموعة بيانات Wiki40B لـ zh-cn.

  • حجم مجموعة البيانات : 985.53 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 30355
'train' 549672
'validation' 30،299

wiki40b / zh-tw

  • وصف التكوين : مجموعة بيانات Wiki40B لـ zh-tw.

  • حجم مجموعة البيانات : 986.45 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 30،670
'train' 552.031
'validation' 30739

ويكي 40 ب / nl

  • وصف التكوين : مجموعة بيانات Wiki40B لـ nl.

  • حجم مجموعة البيانات : 961.82 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 24776
'train' 447555
'validation' 25،201

wiki40b / الاب

  • وصف التكوين : مجموعة بيانات Wiki40B لـ fr.

  • حجم مجموعة البيانات : 3.37 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 68.004
'train' 1،227،206
'validation' 68،655

wiki40b / دي

  • وصف التكوين : مجموعة بيانات Wiki40B لـ de.

  • حجم مجموعة البيانات : 4.78 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 86594
'train' 1،554،910
'validation' 86.068

wiki40b / ذلك

  • وصف التكوين : مجموعة بيانات Wiki40B لذلك.

  • حجم مجموعة البيانات : 2.00 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 40443
'train' 732609
'validation' 40684

ويكي 40 ب / جا

  • وصف التكوين : مجموعة بيانات Wiki40B لـ ja.

  • حجم مجموعة البيانات : 2.19 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 41268
'train' 745392
'validation' 41576

wiki40b / كو

  • وصف التكوين : مجموعة بيانات Wiki40B لـ ko.

  • حجم مجموعة البيانات : 453.98 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 10802
'train' 194977
'validation' 10805

ويكي 40 ب / رر

  • وصف التكوين : مجموعة بيانات Wiki40B لـ pl.

  • حجم مجموعة البيانات : 1.03 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 27987
'train' 505191
'validation' 28310

ويكي 40 ب / نقطة

  • وصف التكوين : مجموعة بيانات Wiki40B لـ pt.

  • حجم مجموعة البيانات : 1.08 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 22،693
'train' 406507
'validation' 22301

wiki40b / ru

  • وصف التكوين : Wiki40B dataset for ru.

  • حجم مجموعة البيانات : 4.13 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 51،885
'train' 926.037
'validation' 51287

wiki40b / es

  • وصف التكوين : مجموعة بيانات Wiki40B لـ es.

  • حجم مجموعة البيانات : 2.70 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 48764
'train' 872.541
'validation' 48592

ويكي 40 ب / عشر

  • وصف التكوين : مجموعة بيانات Wiki40B لـ th.

  • حجم مجموعة البيانات : 326.29 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 3،114
'train' 56798
'validation' 3،093

wiki40b / tr

  • وصف التكوين : مجموعة بيانات Wiki40B لـ tr.

  • حجم مجموعة البيانات : 308.87 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 7890
'train' 142.576
'validation' 7845

wiki40b / bg

  • وصف التكوين : مجموعة بيانات Wiki40B لـ bg.

  • حجم مجموعة البيانات : 433.20 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 7،289
'train' 130،670
'validation' 7259

wiki40b / كاليفورنيا

  • وصف التكوين : مجموعة بيانات Wiki40B لـ ca.

  • حجم مجموعة البيانات : 753.00 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 15.568
'train' 277313
'validation' 15362

wiki40b / CS

  • وصف التكوين : مجموعة بيانات Wiki40B لـ CS.

  • حجم مجموعة البيانات : 631.84 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 12984
'train' 235971
'validation' 13096

wiki40b / دا

  • وصف التكوين : مجموعة بيانات Wiki40B لـ da.

  • حجم مجموعة البيانات : 240.51 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'test' 6219
'train' 109486
'validation' 6173

wiki40b / ج

  • وصف التكوين : مجموعة بيانات Wiki40B لـ el.

  • حجم مجموعة البيانات : 524.77 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 5261
'train' 93.596
'validation' 5130

wiki40b / وآخرون

  • وصف التكوين : مجموعة بيانات Wiki40B لـ et.

  • حجم مجموعة البيانات : 184.07 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'test' 6205
'train' 114464
'validation' 6،351

wiki40b / fa

  • وصف التكوين : مجموعة بيانات Wiki40B لـ fa.

  • حجم مجموعة البيانات : 482.55 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 11262
'train' 203،145
'validation' 11،180

wiki40b / fi

  • وصف التكوين : مجموعة بيانات Wiki40B لـ fi.

  • حجم مجموعة البيانات : 534.13 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 14179
'train' 255822
'validation' 13962

wiki40b / هو

  • وصف التكوين : مجموعة بيانات Wiki40B له.

  • حجم مجموعة البيانات : 869.51 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 9344
'train' 165359
'validation' 9،231

wiki40b / مرحبا

  • وصف التكوين : مجموعة بيانات Wiki40B لـ hi.

  • حجم مجموعة البيانات : 277.56 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 2643
'train' 45737
'validation' 2،596

ويكي 40 ب / ساعة

  • وصف التكوين : مجموعة بيانات Wiki40B لـ hr.

  • حجم مجموعة البيانات : 235.58 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'test' 5724
'train' 103،857
'validation' 5،792

wiki40b / هو

  • وصف التكوين : مجموعة بيانات Wiki40B لـ hu.

  • حجم مجموعة البيانات : 634.25 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 15258
'train' 273248
'validation' 15،208

wiki40b / معرف

  • وصف التكوين : مجموعة بيانات Wiki40B للمعرف.

  • حجم مجموعة البيانات : 334.06 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 8598
'train' 156255
'validation' 8714

ويكي 40 ب / لتر

  • وصف التكوين : مجموعة بيانات Wiki40B لـ lt.

  • حجم مجموعة البيانات : 140.46 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 4،683
'train' 84854
'validation' 4،754

ويكي 40 ب / ليف

  • وصف التكوين : مجموعة بيانات Wiki40B لـ lv.

  • حجم مجموعة البيانات : 80.07 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 1،932
'train' 33.064
'validation' 1،857

wiki40b / مللي ثانية

  • وصف التكوين : مجموعة بيانات Wiki40B لملي ثانية.

  • حجم مجموعة البيانات : 142.49 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'test' 5235
'train' 97509
'validation' 5،357

wiki40b / لا

  • وصف التكوين : مجموعة بيانات Wiki40B لـ no.

  • حجم مجموعة البيانات : 382.03 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 10588
'train' 190.588
'validation' 10547

wiki40b / ريال عماني

  • وصف التكوين : مجموعة بيانات Wiki40B لـ ro.

  • حجم مجموعة البيانات : 319.68 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 7870
'train' 139615
'validation' 7،624

wiki40b / sk

  • وصف التكوين : مجموعة بيانات Wiki40B لـ sk.

  • حجم مجموعة البيانات : 170.20 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'test' 5741
'train' 103،095
'validation' 5604

wiki40b / sl

  • وصف التكوين : مجموعة بيانات Wiki40B لـ sl.

  • حجم مجموعة البيانات : 157.38 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'test' 3341
'train' 60927
'validation' 3،287

ويكي 40 ب / ريال

  • وصف التكوين : مجموعة بيانات Wiki40B لـ sr.

  • حجم مجموعة البيانات : 582.20 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 17997
'train' 327313
'validation' 18100

ويكي 40 ب / سيفرت

  • وصف التكوين : مجموعة بيانات Wiki40B لـ sv.

  • حجم مجموعة البيانات : 613.62 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 22291
'train' 400742
'validation' 22263

ويكي 40 ب / ليرة تركية

  • وصف التكوين : مجموعة بيانات Wiki40B لـ TL.

  • حجم مجموعة البيانات : 29.04 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 1،446
'train' 25940
'validation' 1،472

wiki40b / المملكة المتحدة

  • وصف التكوين : مجموعة بيانات Wiki40B للمملكة المتحدة.

  • حجم مجموعة البيانات : 1.67 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 26،581
'train' 477618
'validation' 26324

ويكي 40 ب / سادسا

  • وصف التكوين : مجموعة بيانات Wiki40B لـ vi.

  • حجم مجموعة البيانات : 497.70 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 7942
'train' 146255
'validation' 8195