wiki40b

  • توضیحات :

متن پاک‌سازی برای بیش از 40 زبان ویکی‌پدیا، نسخه‌های صفحات مربوط به موجودیت‌ها هستند. مجموعه داده‌ها دارای تقسیم‌بندی قطار/dev/تست در هر زبان هستند. مجموعه داده با فیلتر کردن صفحه پاک می‌شود تا صفحات ابهام‌زدایی، صفحات تغییر مسیر، صفحات حذف‌شده و صفحات غیر موجودیت حذف شوند. هر مثال حاوی شناسه ویکی داده موجودیت، و مقاله کامل ویکی‌پدیا پس از پردازش صفحه است که بخش‌های غیرمحتوا و اشیاء ساختاریافته را حذف می‌کند. مدل های زبان آموزش دیده در این مجموعه - شامل 41 مدل تک زبانه، و 2 مدل چند زبانه - را می توانید در https://tfhub.dev/google/collections/wiki40b-lm/1 بیابید.

FeaturesDict({
    'text': Text(shape=(), dtype=string),
    'version_id': Text(shape=(), dtype=string),
    'wikidata_id': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
متن متن رشته
version_id متن رشته
wikidata_id متن رشته
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b/en (پیکربندی پیش‌فرض)

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای en.

  • حجم مجموعه داده : 9.91 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 162274
'train' 2,926,536
'validation' 163,597

wiki40b/ar

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای ar.

  • حجم مجموعه داده : 833.20 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 12271
'train' 220,885
'validation' 12,198

wiki40b/zh-cn

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای zh-cn.

  • حجم مجموعه داده : 985.53 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 30,355
'train' 549672
'validation' 30,299

wiki40b/zh-tw

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای zh-tw.

  • حجم مجموعه داده : 986.45 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 30,670
'train' 552,031
'validation' 30,739

wiki40b/nl

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای nl.

  • حجم مجموعه داده : 961.82 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 24776
'train' 447,555
'validation' 25,201

wiki40b/fr

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای fr.

  • حجم مجموعه داده : 3.37 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 68004
'train' 1,227,206
'validation' 68,655

wiki40b/de

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای de.

  • حجم مجموعه داده : 4.78 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 86594
'train' 1,554,910
'validation' 86068

wiki40b/it

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای آن.

  • حجم مجموعه داده : 2.00 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 40,443
'train' 732,609
'validation' 40684

wiki40b/ja

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای ja.

  • حجم مجموعه داده : 2.19 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 41268
'train' 745,392
'validation' 41576

wiki40b/ko

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای ko.

  • حجم مجموعه داده : 453.98 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 10802
'train' 194,977
'validation' 10805

wiki40b/pl

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای pl.

  • حجم مجموعه داده : 1.03 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 27,987
'train' 505,191
'validation' 28,310

wiki40b/pt

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای pt.

  • حجم مجموعه داده : 1.08 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 22693
'train' 406,507
'validation' 22,301

wiki40b/ru

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای ru.

  • حجم مجموعه داده : 4.13 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 51,885
'train' 926,037
'validation' 51,287

wiki40b/es

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای es.

  • حجم مجموعه داده : 2.70 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 48764
'train' 872,541
'validation' 48592

wiki40b/th

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای th.

  • حجم مجموعه داده : 326.29 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 3,114
'train' 56798
'validation' 3,093

wiki40b/tr

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای tr.

  • حجم مجموعه داده : 308.87 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 7890
'train' 142,576
'validation' 7,845

wiki40b/bg

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای bg.

  • حجم مجموعه داده : 433.20 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 7289
'train' 130,670
'validation' 7,259

wiki40b/ca

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای حدودا.

  • حجم مجموعه داده : 753.00 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 15,568
'train' 277,313
'validation' 15,362

wiki40b/cs

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای cs.

  • حجم مجموعه داده : 631.84 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 12984
'train' 235,971
'validation' 13,096

wiki40b/da

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای da.

  • حجم مجموعه داده : 240.51 MiB

  • ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که shuffle_files=False (قطار)

  • تقسیم ها :

شکاف مثال ها
'test' 6219
'train' 109,486
'validation' 6,173

wiki40b/el

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای el.

  • حجم مجموعه داده : 524.77 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 5,261
'train' 93,596
'validation' 5,130

wiki40b/et

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای et.

  • حجم مجموعه داده : 184.07 MiB

  • ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که shuffle_files=False (قطار)

  • تقسیم ها :

شکاف مثال ها
'test' 6205
'train' 114,464
'validation' 6,351

wiki40b/fa

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای fa.

  • حجم مجموعه داده : 482.55 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 11262
'train' 203,145
'validation' 11180

wiki40b/fi

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای fi.

  • حجم مجموعه داده : 534.13 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 14,179
'train' 255,822
'validation' 13962

wiki40b/he

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای او.

  • حجم مجموعه داده : 869.51 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 9,344
'train' 165,359
'validation' 9,231

wiki40b/hi

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای سلام.

  • حجم مجموعه داده : 277.56 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 2643
'train' 45737
'validation' 2596

wiki40b/hr

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای ساعت.

  • حجم مجموعه داده : 235.58 MiB

  • ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که shuffle_files=False (قطار)

  • تقسیم ها :

شکاف مثال ها
'test' 5,724
'train' 103,857
'validation' 5792

wiki40b/hu

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای hu.

  • حجم مجموعه داده : 634.25 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 15,258
'train' 273,248
'validation' 15,208

wiki40b/id

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای شناسه.

  • حجم مجموعه داده : 334.06 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 8598
'train' 156,255
'validation' 8714

wiki40b/lt

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای lt.

  • حجم مجموعه داده : 140.46 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 4683
'train' 84,854
'validation' 4,754

wiki40b/lv

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای lv.

  • حجم مجموعه داده : 80.07 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,932
'train' 33,064
'validation' 1,857

wiki40b/ms

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای ms.

  • حجم مجموعه داده : 142.49 MiB

  • ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که shuffle_files=False (قطار)

  • تقسیم ها :

شکاف مثال ها
'test' 5,235
'train' 97,509
'validation' 5,357

wiki40b/no

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای شماره.

  • حجم مجموعه داده : 382.03 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 10,588
'train' 190,588
'validation' 10,547

wiki40b/ro

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای ro.

  • حجم مجموعه داده : 319.68 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 7870
'train' 139615
'validation' 7,624

wiki40b/sk

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای sk.

  • حجم مجموعه داده : 170.20 MiB

  • ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که shuffle_files=False (قطار)

  • تقسیم ها :

شکاف مثال ها
'test' 5,741
'train' 103,095
'validation' 5,604

wiki40b/sl

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای sl.

  • حجم مجموعه داده : 157.38 MiB

  • ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که shuffle_files=False (قطار)

  • تقسیم ها :

شکاف مثال ها
'test' 3,341
'train' 60,927
'validation' 3,287

wiki40b/sr

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای sr.

  • حجم مجموعه داده : 582.20 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 17,997
'train' 327,313
'validation' 18100

wiki40b/sv

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای sv.

  • حجم مجموعه داده : 613.62 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 22291
'train' 400,742
'validation' 22263

wiki40b/tl

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای tl.

  • حجم مجموعه داده : 29.04 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,446
'train' 25940
'validation' 1,472

wiki40b/uk

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای انگلستان.

  • حجم مجموعه داده : 1.67 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 26581
'train' 477,618
'validation' 26,324

wiki40b/vi

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای vi.

  • حجم مجموعه داده : 497.70 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 7,942
'train' 146255
'validation' 8,195