ویکیپدیا

با مجموعه‌ها، منظم بمانید ذخیره و دسته‌بندی محتوا براساس اولویت‌های شما.

  • توضیحات :

مجموعه داده ویکی پدیا حاوی مقالات پاک شده از همه زبانها است. مجموعه داده‌ها از پایگاه ویکی‌پدیا ( https://dumps.wikimedia.org/ ) با یک تقسیم برای هر زبان ساخته شده‌اند. هر مثال حاوی محتوای یک مقاله کامل ویکی‌پدیا با پاک‌سازی برای حذف علامت‌گذاری و بخش‌های ناخواسته (مرجع و غیره) است.

FeaturesDict({
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
متن متن tf.string
عنوان متن tf.string
@ONLINE {wikidump,
    author = "Wikimedia Foundation",
    title  = "Wikimedia Downloads",
    url    = "https://dumps.wikimedia.org"
}

wikipedia/20201201.aa (پیکربندی پیش‌فرض)

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای aa، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 45.29 KiB

  • اندازه مجموعه داده : 3.46 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 1

wikipedia/20201201.ab

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ab، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 1.80 MiB

  • حجم مجموعه داده : 2.86 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 7,136

wikipedia/20201201.ace

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ace، تجزیه‌شده از روگرفت 20201201.

  • حجم دانلود : 3.17 MiB

  • حجم مجموعه داده : 3.73 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 11561

wikipedia/20201201.ady

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ady، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 457.46 KiB

  • اندازه مجموعه داده : 515.14 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 562

wikipedia/20201201.af

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای af، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 111.81 MiB

  • حجم مجموعه داده : 192.73 MiB

  • ذخیره خودکار ( مستندات ): فقط زمانی که shuffle_files=False (قطار)

  • تقسیم ها :

شکاف مثال ها
'train' 117,154

wikipedia/20201201.ak

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ak، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 680.35 KiB

  • اندازه مجموعه داده : 732.95 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 1,424

wikipedia/20201201.als

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای als، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 52.48 MiB

  • حجم مجموعه داده : 70.04 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 29,826

wikipedia/20201201.am

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای am، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 7.12 MiB

  • حجم مجموعه داده : 17.44 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 13,502

wikipedia/20201201.an

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای یک، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 34.56 MiB

  • حجم مجموعه داده : 48.50 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 53,071

wikipedia/20201201.ang

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ang، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 4.32 MiB

  • حجم مجموعه داده : 2.46 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 3,360

wikipedia/20201201.ar

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ar، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 1.22 GiB

  • حجم مجموعه داده : 2.32 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 2,049,549

wikipedia/20201201.arc

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای قوس، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 1.09 MiB

  • اندازه مجموعه داده : 851.19 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 3,534

wikipedia/20201201.arz

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای arz، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 153.51 MiB

  • حجم مجموعه داده : 851.84 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 1,182,669

wikipedia/20201201.as

  • شرح پیکربندی : مجموعه داده ویکی‌پدیا برای as، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 24.77 MiB

  • حجم مجموعه داده : 48.62 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 7,643

wikipedia/20201201.ast

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ast، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 218.95 MiB

  • حجم مجموعه داده : 447.75 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 116,833

wikipedia/20201201.atj

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای atj، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 602.22 KiB

  • اندازه مجموعه داده : 756.58 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 1,424

wikipedia/20201201.av

  • شرح پیکربندی : مجموعه داده ویکی‌پدیا برای av، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 5.27 MiB

  • حجم مجموعه داده : 3.54 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 3,173

wikipedia/20201201.ay

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ay، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 2.26 MiB

  • حجم مجموعه داده : 4.14 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 5,253

wikipedia/20201201.az

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای az، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 200.75 MiB

  • حجم مجموعه داده : 344.59 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 203,051

wikipedia/20201201.azb

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای azb، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 91.79 MiB

  • حجم مجموعه داده : 156.66 MiB

  • ذخیره خودکار ( مستندات ): فقط زمانی که shuffle_files=False (قطار)

  • تقسیم ها :

شکاف مثال ها
'train' 265,450

wikipedia/20201201.ba

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ba، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 72.92 MiB

  • حجم مجموعه داده : 207.55 MiB

  • ذخیره خودکار ( مستندات ): فقط زمانی که shuffle_files=False (قطار)

  • تقسیم ها :

شکاف مثال ها
'train' 61290

wikipedia/20201201.bar

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای نوار، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 33.42 MiB

  • حجم مجموعه داده : 41.25 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 46935

wikipedia/20201201.bat-smg

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای bat-smg، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 4.91 MiB

  • حجم مجموعه داده : 6.68 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 19779

wikipedia/20201201.bcl

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای bcl، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 10.22 MiB

  • حجم مجموعه داده : 10.45 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 10763

wikipedia/20201201.be

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای be، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 224.26 MiB

  • حجم مجموعه داده : 465.50 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 198957

wikipedia/20201201.be-x-old

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای be-x-old، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 84.30 MiB

  • حجم مجموعه داده : 187.21 MiB

  • ذخیره خودکار ( مستندات ): فقط زمانی که shuffle_files=False (قطار)

  • تقسیم ها :

شکاف مثال ها
'train' 103,888

wikipedia/20201201.bg

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای bg، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 362.31 MiB

  • حجم مجموعه داده : 909.59 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 387980

wikipedia/20201201.bh

  • شرح پیکربندی : مجموعه داده ویکی‌پدیا برای bh، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 14.57 MiB

  • حجم مجموعه داده : 11.10 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 7,395

wikipedia/20201201.bi

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای bi، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 461.56 KiB

  • اندازه مجموعه داده : 306.05 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 1,406

wikipedia/20201201.bjn

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای bjn، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 3.44 MiB

  • حجم مجموعه داده : 3.20 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 3790

wikipedia/20201201.bm

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای bm، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 602.51 KiB

  • حجم مجموعه داده : 353.23 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 754

wikipedia/20201201.bn

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای bn، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 223.59 MiB

  • حجم مجموعه داده : 594.36 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 156991

wikipedia/20201201.bo

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای bo، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 13.32 MiB

  • حجم مجموعه داده : 117.09 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 11670

wikipedia/20201201.bpy

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای bpy، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 5.23 MiB

  • حجم مجموعه داده : 39.40 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 25,475

wikipedia/20201201.br

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای br، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 52.28 MiB

  • حجم مجموعه داده : 74.03 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 79,725

wikipedia/20201201.bs

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای bs، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 117.25 MiB

  • حجم مجموعه داده : 159.74 MiB

  • ذخیره خودکار ( مستندات ): فقط زمانی که shuffle_files=False (قطار)

  • تقسیم ها :

شکاف مثال ها
'train' 190,059

wikipedia/20201201.bug

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای اشکال، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 1.84 MiB

  • حجم مجموعه داده : 2.73 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 14,424

wikipedia/20201201.bxr

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای bxr، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 3.29 MiB

  • حجم مجموعه داده : 5.68 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیمات :

شکاف مثال ها
'train' 2665

wikipedia/20201201.ca

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ca، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 947.73 MiB

  • حجم مجموعه داده : 1.57 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 740,415

wikipedia/20201201.cbk-zam

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای cbk-zam، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 3.37 MiB

  • حجم مجموعه داده : 3.23 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 4,479

wikipedia/20201201.cdo

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای cdo، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 4.46 MiB

  • حجم مجموعه داده : 4.03 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 16,879

wikipedia/20201201.ce

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ce، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 60.74 MiB

  • حجم مجموعه داده : 323.18 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 349,688

wikipedia/20201201.ceb

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ceb، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 1.87 GiB

  • حجم مجموعه داده : 3.69 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 5,377,442

wikipedia/20201201.ch

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ch، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 723.85 KiB

  • حجم مجموعه داده : 168.11 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 544

wikipedia/20201201.cho

  • شرح پیکربندی : مجموعه داده ویکی‌پدیا برای cho، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 27.02 KiB

  • اندازه مجموعه داده : 7.44 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 14

wikipedia/20201201.chr

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای chr، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 659.67 KiB

  • اندازه مجموعه داده : 641.72 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیمات :

شکاف مثال ها
'train' 969

wikipedia/20201201.chy

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای chy، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 353.22 KiB

  • حجم مجموعه داده : 116.82 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 783

wikipedia/20201201.ckb

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ckb، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 31.97 MiB

  • حجم مجموعه داده : 55.92 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 30,058

wikipedia/20201201.co

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای شرکت، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 4.56 MiB

  • حجم مجموعه داده : 6.14 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 6617

wikipedia/20201201.cr

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای cr، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 287.29 KiB

  • حجم مجموعه داده : 65.23 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 135

wikipedia/20201201.crh

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای crh، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 4.79 MiB

  • حجم مجموعه داده : 3.06 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 8237

wikipedia/20201201.cs

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای cs، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 882.62 MiB

  • حجم مجموعه داده : 1.22 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 603,353

wikipedia/20201201.csb

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای csb، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 2.19 MiB

  • حجم مجموعه داده : 3.40 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 5,727

wikipedia/20201201.cu

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای cu، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 695.33 KiB

  • حجم مجموعه داده : 706.87 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 1592

wikipedia/20201201.cv

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای cv، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 25.37 MiB

  • حجم مجموعه داده : 63.07 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 48,049

wikipedia/20201201.cy

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای cy، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 78.15 MiB

  • حجم مجموعه داده : 114.47 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 173,604

wikipedia/20201201.da

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای da، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 356.47 MiB

  • حجم مجموعه داده : 471.83 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

شکاف مثال ها
'train' 263,308

wikipedia/20201201.de

  • شرح پیکربندی : مجموعه داده ویکی‌پدیا برای de، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 5.58 GiB

  • حجم مجموعه داده : 7.85 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 3,229,667

wikipedia/20201201.din

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای دین، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 506.05 KiB

  • اندازه مجموعه داده : 486.08 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 303

wikipedia/20201201.diq

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای diq، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 11.05 MiB

  • حجم مجموعه داده : 16.11 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 42,014

wikipedia/20201201.dsb

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای dsb، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 3.81 MiB

  • حجم مجموعه داده : 3.13 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 3,541

wikipedia/20201201.dty

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای dty، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 6.95 MiB

  • حجم مجموعه داده : 6.03 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 3,584

wikipedia/20201201.dv

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای dv، تجزیه شده از 20201201 dump.

  • حجم دانلود : 4.36 MiB

  • حجم مجموعه داده : 12.42 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 4271

wikipedia/20201201.dz

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای dz، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 386.98 KiB

  • اندازه مجموعه داده : 800.32 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیمات :

شکاف مثال ها
'train' 290

wikipedia/20201201.ee

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ee، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 478.59 KiB

  • حجم مجموعه داده : 217.86 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 385

wikipedia/20201201.el

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای el، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 390.18 MiB

  • حجم مجموعه داده : 1008.24 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 259,509

wikipedia/20201201.eml

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای eml، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 8.58 MiB

  • حجم مجموعه داده : 3.16 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 14658

wikipedia/20201201.en

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای en، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 17.70 GiB

  • حجم مجموعه داده : 17.76 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 6,210,110

wikipedia/20201201.eo

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای eo، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 281.09 MiB

  • حجم مجموعه داده : 427.66 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 398,951

wikipedia/20201201.es

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای es، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 3.38 GiB

  • حجم مجموعه داده : 4.84 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 2,943,343

wikipedia/20201201.et

  • شرح پیکربندی : مجموعه داده ویکی‌پدیا برای et، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 223.58 MiB

  • حجم مجموعه داده : 369.36 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 328713

wikipedia/20201201.eu

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای اتحادیه اروپا، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 214.93 MiB

  • حجم مجموعه داده : 417.98 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 463673

wikipedia/20201201.ext

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای متن، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 2.55 MiB

  • حجم مجموعه داده : 3.62 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 3,536

wikipedia/20201201.fa

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای fa، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 850.45 MiB

  • حجم مجموعه داده : 1.45 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 2,427,541

wikipedia/20201201.ff

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ff، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 516.43 KiB

  • حجم مجموعه داده : 524.57 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 364

wikipedia/20201201.fi

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای fi، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 744.51 MiB

  • حجم مجموعه داده : 964.66 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 682734

wikipedia/20201201.fiu-vro

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای fiu-vro، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 2.16 MiB

  • حجم مجموعه داده : 3.46 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 6266

wikipedia/20201201.fj

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای fj، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 781.90 KiB

  • اندازه مجموعه داده : 456.89 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 1,118

wikipedia/20201201.fo

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای fo، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 14.37 MiB

  • حجم مجموعه داده : 13.68 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 13,453

wikipedia/20201201.fr

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای fr، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 4.75 GiB

  • حجم مجموعه داده : 6.34 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 2,274,691

wikipedia/20201201.frp

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای frp، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 2.60 MiB

  • حجم مجموعه داده : 1.95 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 6,125

wikipedia/20201201.frr

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای frr، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 9.78 MiB

  • حجم مجموعه داده : 6.88 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 13,251

wikipedia/20201201.fur

  • شرح پیکربندی : مجموعه داده ویکی‌پدیا برای خز، تجزیه‌شده از روگرفت 20201201.

  • حجم دانلود : 2.45 MiB

  • حجم مجموعه داده : 3.66 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 3,658

wikipedia/20201201.fy

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای fy، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 53.07 MiB

  • حجم مجموعه داده : 100.08 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 44,749

wikipedia/20201201.ga

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ga، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 29.73 MiB

  • حجم مجموعه داده : 46.66 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 61,009

wikipedia/20201201.gag

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای گاگ، تجزیه‌شده از روگرفت 20201201.

  • حجم دانلود : 2.07 MiB

  • حجم مجموعه داده : 2.28 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 3,021

wikipedia/20201201.gan

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای gan، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 3.91 MiB

  • حجم مجموعه داده : 2.45 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 6,525

wikipedia/20201201.gd

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای gd، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 8.95 MiB

  • حجم مجموعه داده : 12.58 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 15270

wikipedia/20201201.gl

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای gl، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 268.72 MiB

  • حجم مجموعه داده : 397.80 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 226,449

wikipedia/20201201.glk

  • شرح پیکربندی : مجموعه داده ویکی‌پدیا برای glk، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 2.16 MiB

  • حجم مجموعه داده : 4.46 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 7001

wikipedia/20201201.gn

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای gn، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 3.81 MiB

  • حجم مجموعه داده : 5.47 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 4,887

wikipedia/20201201.gom

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای gom، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 6.70 MiB

  • حجم مجموعه داده : 29.64 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 4,482

wikipedia/20201201.gor

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای gor، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 3.02 MiB

  • حجم مجموعه داده : 4.37 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 11,335

wikipedia/20201201.got

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای got، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 699.97 KiB

  • حجم مجموعه داده : 1.32 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 955

wikipedia/20201201.gu

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای gu، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 29.64 MiB

  • حجم مجموعه داده : 108.56 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 29,449

wikipedia/20201201.gv

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای gv، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 5.47 MiB

  • حجم مجموعه داده : 4.40 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 5,036

wikipedia/20201201.ha

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ha، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 5.19 MiB

  • حجم مجموعه داده : 7.80 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 7,017

wikipedia/20201201.hak

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای hak، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 3.84 MiB

  • حجم مجموعه داده : 4.04 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 12053

wikipedia/20201201.haw

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای haw، تجزیه‌شده از روگرفت 20201201.

  • حجم دانلود : 1.05 MiB

  • حجم مجموعه داده : 1.26 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 2,516

wikipedia/20201201.he

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای او، تجزیه‌وتحلیل شده از dump 20201201.

  • حجم دانلود : 690.54 MiB

  • حجم مجموعه داده : 1.48 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 454,321

wikipedia/20201201.hi

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای سلام، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 166.88 MiB

  • حجم مجموعه داده : 545.88 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 178,324
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.hif

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای hif، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 4.88 MiB

  • حجم مجموعه داده : 4.32 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 10,118
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.ho

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ho، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 19.30 KiB

  • حجم مجموعه داده : 3.27 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 3
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.hr

  • شرح پیکربندی : مجموعه داده ویکی‌پدیا برای hr، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 277.38 MiB

  • حجم مجموعه داده : 408.92 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 254,662
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.hsb

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای hsb، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 10.84 MiB

  • حجم مجموعه داده : 14.61 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 15,025
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.ht

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ht، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 14.88 MiB

  • حجم مجموعه داده : 42.39 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 61,756
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.hu

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای hu، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 909.08 MiB

  • حجم مجموعه داده : 1.25 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

شکاف مثال ها
'train' 673740
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.hy

  • شرح پیکربندی : مجموعه داده ویکی‌پدیا برای hy، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 357.39 MiB

  • حجم مجموعه داده : 967.47 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 627,523
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.ia

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ia، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 9.15 MiB

  • حجم مجموعه داده : 11.96 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 20,254
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.id

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای شناسه، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 658.39 MiB

  • حجم مجموعه داده : 865.16 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 1,077,758
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.ie

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای مثال، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 2.18 MiB

  • حجم مجموعه داده : 3.28 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 5,272
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.ig

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ig، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 2.14 MiB

  • حجم مجموعه داده : 2.83 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 3,426
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.ii

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ii، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 31.96 KiB

  • حجم مجموعه داده : 8.31 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 14
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.ik

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ik، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 257.86 KiB

  • اندازه مجموعه داده : 93.95 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 668
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.ilo

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ilo، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 18.14 MiB

  • حجم مجموعه داده : 15.81 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 15,390
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.inh

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای inh، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 2.98 MiB

  • حجم مجموعه داده : 1.34 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 2017
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.io

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای io، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 13.81 MiB

  • حجم مجموعه داده : 30.11 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 31,448
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.is

  • شرح پیکربندی : مجموعه داده ویکی‌پدیا برای است، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 47.31 MiB

  • حجم مجموعه داده : 73.85 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 73,114
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.it

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای آن، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 3.03 GiB

  • حجم مجموعه داده : 3.91 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 2,001,603
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.iu

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای iu، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 311.91 KiB

  • اندازه مجموعه داده : 148.25 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 587
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.ja

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای ja، تجزیه‌شده از 20201201 dump.

  • حجم دانلود : 3.14 GiB

  • حجم مجموعه داده : 5.61 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 1,529,692
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.jam

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای جم، تجزیه‌شده از روگرفت 20201201.

  • حجم دانلود : 925.16 KiB

  • حجم مجموعه داده : 1.01 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 1720
  • مثال‌ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می‌شود.

wikipedia/20201201.jbo

  • توضیحات پیکربندی : مجموعه داده ویکی‌پدیا برای jbo، تجزیه‌شده از dump 20201201.

  • حجم دانلود : 1.13 MiB

  • حجم مجموعه داده : 2.32 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیمات :

شکاف مثال ها
'train' 1,330
  • مثال ها ( tfds.as_dataframe ): فقط برای 100 پیکربندی اول نشان داده می شود.

wikipedia/20201201.jv

  • Config description : Wikipedia dataset for jv, parsed from 20201201 dump.

  • Download size : 46.35 MiB

  • Dataset size : 57.72 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 79,598

wikipedia/20201201.ka

  • Config description : Wikipedia dataset for ka, parsed from 20201201 dump.

  • Download size : 159.31 MiB

  • Dataset size : 543.59 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 182,623

wikipedia/20201201.kaa

  • Config description : Wikipedia dataset for kaa, parsed from 20201201 dump.

  • Download size : 1.44 MiB

  • Dataset size : 1.78 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 2,197

wikipedia/20201201.kab

  • Config description : Wikipedia dataset for kab, parsed from 20201201 dump.

  • Download size : 3.55 MiB

  • Dataset size : 3.40 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 5,058

wikipedia/20201201.kbd

  • Config description : Wikipedia dataset for kbd, parsed from 20201201 dump.

  • Download size : 1.69 MiB

  • Dataset size : 2.74 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,607

wikipedia/20201201.kbp

  • Config description : Wikipedia dataset for kbp, parsed from 20201201 dump.

  • Download size : 1.40 MiB

  • Dataset size : 3.36 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,915

wikipedia/20201201.kg

  • Config description : Wikipedia dataset for kg, parsed from 20201201 dump.

  • Download size : 484.12 KiB

  • Dataset size : 292.64 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,271

wikipedia/20201201.ki

  • Config description : Wikipedia dataset for ki, parsed from 20201201 dump.

  • Download size : 390.92 KiB

  • Dataset size : 309.05 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,486

wikipedia/20201201.kj

  • Config description : Wikipedia dataset for kj, parsed from 20201201 dump.

  • Download size : 17.54 KiB

  • Dataset size : 4.93 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 5

wikipedia/20201201.kk

  • Config description : Wikipedia dataset for kk, parsed from 20201201 dump.

  • Download size : 120.88 MiB

  • Dataset size : 424.64 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 270,628

wikipedia/20201201.kl

  • Config description : Wikipedia dataset for kl, parsed from 20201201 dump.

  • Download size : 654.67 KiB

  • Dataset size : 447.23 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 867

wikipedia/20201201.km

  • Config description : Wikipedia dataset for km, parsed from 20201201 dump.

  • Download size : 25.74 MiB

  • Dataset size : 150.43 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 11,995

wikipedia/20201201.kn

  • Config description : Wikipedia dataset for kn, parsed from 20201201 dump.

  • Download size : 76.13 MiB

  • Dataset size : 333.31 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 27,325

wikipedia/20201201.ko

  • Config description : Wikipedia dataset for ko, parsed from 20201201 dump.

  • Download size : 747.33 MiB

  • Dataset size : 1.09 GiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 1,139,678

wikipedia/20201201.koi

  • Config description : Wikipedia dataset for koi, parsed from 20201201 dump.

  • Download size : 2.26 MiB

  • Dataset size : 4.74 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 3,967

wikipedia/20201201.krc

  • Config description : Wikipedia dataset for krc, parsed from 20201201 dump.

  • Download size : 3.25 MiB

  • Dataset size : 4.27 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 2,341

wikipedia/20201201.ks

  • Config description : Wikipedia dataset for ks, parsed from 20201201 dump.

  • Download size : 363.64 KiB

  • Dataset size : 199.02 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 509

wikipedia/20201201.ksh

  • Config description : Wikipedia dataset for ksh, parsed from 20201201 dump.

  • Download size : 3.18 MiB

  • Dataset size : 2.92 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 3,409

wikipedia/20201201.ku

  • Config description : Wikipedia dataset for ku, parsed from 20201201 dump.

  • Download size : 21.18 MiB

  • Dataset size : 28.62 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 43,802

wikipedia/20201201.kv

  • Config description : Wikipedia dataset for kv, parsed from 20201201 dump.

  • Download size : 3.58 MiB

  • Dataset size : 8.28 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 6,790

wikipedia/20201201.kw

  • Config description : Wikipedia dataset for kw, parsed from 20201201 dump.

  • Download size : 2.42 MiB

  • Dataset size : 2.15 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 4,524

wikipedia/20201201.ky

  • Config description : Wikipedia dataset for ky, parsed from 20201201 dump.

  • Download size : 34.15 MiB

  • Dataset size : 147.20 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 79,798

wikipedia/20201201.la

  • Config description : Wikipedia dataset for la, parsed from 20201201 dump.

  • Download size : 89.33 MiB

  • Dataset size : 128.71 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 134,356

wikipedia/20201201.lad

  • Config description : Wikipedia dataset for lad, parsed from 20201201 dump.

  • Download size : 3.41 MiB

  • Dataset size : 4.58 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 4,957

wikipedia/20201201.lb

  • Config description : Wikipedia dataset for lb, parsed from 20201201 dump.

  • Download size : 49.54 MiB

  • Dataset size : 78.17 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 65,562

wikipedia/20201201.lbe

  • Config description : Wikipedia dataset for lbe, parsed from 20201201 dump.

  • Download size : 1.39 MiB

  • Dataset size : 644.30 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,554

wikipedia/20201201.lez

  • Config description : Wikipedia dataset for lez, parsed from 20201201 dump.

  • Download size : 4.75 MiB

  • Dataset size : 8.89 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 4,593

wikipedia/20201201.lfn

  • Config description : Wikipedia dataset for lfn, parsed from 20201201 dump.

  • Download size : 4.00 MiB

  • Dataset size : 8.32 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 4,647

wikipedia/20201201.lg

  • Config description : Wikipedia dataset for lg, parsed from 20201201 dump.

  • Download size : 1.69 MiB

  • Dataset size : 3.79 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 2,405

wikipedia/20201201.li

  • Config description : Wikipedia dataset for li, parsed from 20201201 dump.

  • Download size : 15.16 MiB

  • Dataset size : 26.01 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 15,238

wikipedia/20201201.lij

  • Config description : Wikipedia dataset for lij, parsed from 20201201 dump.

  • Download size : 3.94 MiB

  • Dataset size : 5.27 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 5,441

wikipedia/20201201.lmo

  • Config description : Wikipedia dataset for lmo, parsed from 20201201 dump.

  • Download size : 24.17 MiB

  • Dataset size : 32.41 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 51,386

wikipedia/20201201.ln

  • Config description : Wikipedia dataset for ln, parsed from 20201201 dump.

  • Download size : 1.94 MiB

  • Dataset size : 1.69 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 3,294

wikipedia/20201201.lo

  • Config description : Wikipedia dataset for lo, parsed from 20201201 dump.

  • Download size : 4.56 MiB

  • Dataset size : 12.09 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 4,536

wikipedia/20201201.lrc

  • Config description : Wikipedia dataset for lrc, parsed from 20201201 dump.

  • Download size : 6.94 MiB

  • Dataset size : 4.63 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 7,216

wikipedia/20201201.lt

  • Config description : Wikipedia dataset for lt, parsed from 20201201 dump.

  • Download size : 188.31 MiB

  • Dataset size : 293.73 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 226,648

wikipedia/20201201.ltg

  • Config description : Wikipedia dataset for ltg, parsed from 20201201 dump.

  • Download size : 900.39 KiB

  • Dataset size : 860.83 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,005

wikipedia/20201201.lv

  • Config description : Wikipedia dataset for lv, parsed from 20201201 dump.

  • Download size : 145.93 MiB

  • Dataset size : 179.44 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 104,487

wikipedia/20201201.mai

  • Config description : Wikipedia dataset for mai, parsed from 20201201 dump.

  • Download size : 11.77 MiB

  • Dataset size : 18.57 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 14,891

wikipedia/20201201.map-bms

  • Config description : Wikipedia dataset for map-bms, parsed from 20201201 dump.

  • Download size : 4.65 MiB

  • Dataset size : 4.67 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 13,882

wikipedia/20201201.mdf

  • Config description : Wikipedia dataset for mdf, parsed from 20201201 dump.

  • Download size : 1.21 MiB

  • Dataset size : 1.75 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,363

wikipedia/20201201.mg

  • Config description : Wikipedia dataset for mg, parsed from 20201201 dump.

  • Download size : 27.85 MiB

  • Dataset size : 63.42 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 129,968

wikipedia/20201201.mh

  • Config description : Wikipedia dataset for mh, parsed from 20201201 dump.

  • Download size : 28.69 KiB

  • Dataset size : 11.04 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 8

wikipedia/20201201.mhr

  • Config description : Wikipedia dataset for mhr, parsed from 20201201 dump.

  • Download size : 6.15 MiB

  • Dataset size : 16.94 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 12,408

wikipedia/20201201.mi

  • Config description : Wikipedia dataset for mi, parsed from 20201201 dump.

  • Download size : 2.04 MiB

  • Dataset size : 3.51 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 7,203

wikipedia/20201201.min

  • Config description : Wikipedia dataset for min, parsed from 20201201 dump.

  • Download size : 29.45 MiB

  • Dataset size : 99.59 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 228,196

wikipedia/20201201.mk

  • Config description : Wikipedia dataset for mk, parsed from 20201201 dump.

  • Download size : 166.60 MiB

  • Dataset size : 465.95 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 150,831

wikipedia/20201201.ml

  • Config description : Wikipedia dataset for ml, parsed from 20201201 dump.

  • Download size : 143.17 MiB

  • Dataset size : 369.54 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 131,128

wikipedia/20201201.mn

  • Config description : Wikipedia dataset for mn, parsed from 20201201 dump.

  • Download size : 32.25 MiB

  • Dataset size : 73.71 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 25,077

wikipedia/20201201.mr

  • Config description : Wikipedia dataset for mr, parsed from 20201201 dump.

  • Download size : 58.88 MiB

  • Dataset size : 170.52 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 112,917

wikipedia/20201201.mrj

  • Config description : Wikipedia dataset for mrj, parsed from 20201201 dump.

  • Download size : 3.20 MiB

  • Dataset size : 8.29 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 10,810

wikipedia/20201201.ms

  • Config description : Wikipedia dataset for ms, parsed from 20201201 dump.

  • Download size : 250.50 MiB

  • Dataset size : 341.93 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 386,945

wikipedia/20201201.mt

  • Config description : Wikipedia dataset for mt, parsed from 20201201 dump.

  • Download size : 9.06 MiB

  • Dataset size : 13.35 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 4,967

wikipedia/20201201.mus

  • Config description : Wikipedia dataset for mus, parsed from 20201201 dump.

  • Download size : 15.13 KiB

  • Dataset size : 875 bytes

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 2

wikipedia/20201201.mwl

  • Config description : Wikipedia dataset for mwl, parsed from 20201201 dump.

  • Download size : 9.19 MiB

  • Dataset size : 18.37 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 4,400

wikipedia/20201201.my

  • Config description : Wikipedia dataset for my, parsed from 20201201 dump.

  • Download size : 42.95 MiB

  • Dataset size : 195.80 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 54,562

wikipedia/20201201.myv

  • Config description : Wikipedia dataset for myv, parsed from 20201201 dump.

  • Download size : 9.65 MiB

  • Dataset size : 8.85 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 7,155

wikipedia/20201201.mzn

  • Config description : Wikipedia dataset for mzn, parsed from 20201201 dump.

  • Download size : 6.80 MiB

  • Dataset size : 11.24 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 18,599

wikipedia/20201201.na

  • Config description : Wikipedia dataset for na, parsed from 20201201 dump.

  • Download size : 531.75 KiB

  • Dataset size : 357.01 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,576

wikipedia/20201201.nah

  • Config description : Wikipedia dataset for nah, parsed from 20201201 dump.

  • Download size : 4.51 MiB

  • Dataset size : 7.86 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 10,714

wikipedia/20201201.nap

  • Config description : Wikipedia dataset for nap, parsed from 20201201 dump.

  • Download size : 5.31 MiB

  • Dataset size : 5.91 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 15,278

wikipedia/20201201.nds

  • Config description : Wikipedia dataset for nds, parsed from 20201201 dump.

  • Download size : 42.06 MiB

  • Dataset size : 85.20 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 87,896

wikipedia/20201201.nds-nl

  • Config description : Wikipedia dataset for nds-nl, parsed from 20201201 dump.

  • Download size : 7.29 MiB

  • Dataset size : 11.39 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 9,429

wikipedia/20201201.ne

  • Config description : Wikipedia dataset for ne, parsed from 20201201 dump.

  • Download size : 37.50 MiB

  • Dataset size : 88.48 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 32,310

wikipedia/20201201.new

  • Config description : Wikipedia dataset for new, parsed from 20201201 dump.

  • Download size : 17.27 MiB

  • Dataset size : 140.32 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 72,998

wikipedia/20201201.ng

  • Config description : Wikipedia dataset for ng, parsed from 20201201 dump.

  • Download size : 92.26 KiB

  • Dataset size : 66.12 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 21

wikipedia/20201201.nl

  • Config description : Wikipedia dataset for nl, parsed from 20201201 dump.

  • Download size : 1.53 GiB

  • Dataset size : 2.21 GiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 2,523,440

wikipedia/20201201.nn

  • Config description : Wikipedia dataset for nn, parsed from 20201201 dump.

  • Download size : 139.43 MiB

  • Dataset size : 208.84 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 231,090

wikipedia/20201201.no

  • Config description : Wikipedia dataset for no, parsed from 20201201 dump.

  • Download size : 649.54 MiB

  • Dataset size : 890.97 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 847,202

wikipedia/20201201.nov

  • Config description : Wikipedia dataset for nov, parsed from 20201201 dump.

  • Download size : 1.16 MiB

  • Dataset size : 810.66 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,792

wikipedia/20201201.nrm

  • Config description : Wikipedia dataset for nrm, parsed from 20201201 dump.

  • Download size : 1.86 MiB

  • Dataset size : 2.79 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 4,541

wikipedia/20201201.nso

  • Config description : Wikipedia dataset for nso, parsed from 20201201 dump.

  • Download size : 2.29 MiB

  • Dataset size : 2.12 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 8,282

wikipedia/20201201.nv

  • Config description : Wikipedia dataset for nv, parsed from 20201201 dump.

  • Download size : 4.32 MiB

  • Dataset size : 10.20 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 15,855

wikipedia/20201201.ny

  • Config description : Wikipedia dataset for ny, parsed from 20201201 dump.

  • Download size : 1.45 MiB

  • Dataset size : 963.44 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 850

wikipedia/20201201.oc

  • Config description : Wikipedia dataset for oc, parsed from 20201201 dump.

  • Download size : 75.53 MiB

  • Dataset size : 111.16 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 94,068

wikipedia/20201201.olo

  • Config description : Wikipedia dataset for olo, parsed from 20201201 dump.

  • Download size : 1.95 MiB

  • Dataset size : 2.61 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 4,508

wikipedia/20201201.om

  • Config description : Wikipedia dataset for om, parsed from 20201201 dump.

  • Download size : 1.26 MiB

  • Dataset size : 1.70 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,163

wikipedia/20201201.or

  • Config description : Wikipedia dataset for or, parsed from 20201201 dump.

  • Download size : 28.60 MiB

  • Dataset size : 59.16 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 31,029

wikipedia/20201201.os

  • Config description : Wikipedia dataset for os, parsed from 20201201 dump.

  • Download size : 9.08 MiB

  • Dataset size : 9.88 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 14,964

wikipedia/20201201.pa

  • Config description : Wikipedia dataset for pa, parsed from 20201201 dump.

  • Download size : 49.00 MiB

  • Dataset size : 129.86 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 44,984

wikipedia/20201201.pag

  • Config description : Wikipedia dataset for pag, parsed from 20201201 dump.

  • Download size : 1.66 MiB

  • Dataset size : 1.72 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 4,942

wikipedia/20201201.pam

  • Config description : Wikipedia dataset for pam, parsed from 20201201 dump.

  • Download size : 9.11 MiB

  • Dataset size : 7.38 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 8,794

wikipedia/20201201.pap

  • Config description : Wikipedia dataset for pap, parsed from 20201201 dump.

  • Download size : 1.50 MiB

  • Dataset size : 2.03 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 2,179

wikipedia/20201201.pcd

  • Config description : Wikipedia dataset for pcd, parsed from 20201201 dump.

  • Download size : 4.89 MiB

  • Dataset size : 4.96 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 5,113

wikipedia/20201201.pdc

  • Config description : Wikipedia dataset for pdc, parsed from 20201201 dump.

  • Download size : 1.16 MiB

  • Dataset size : 1.09 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 2,424

wikipedia/20201201.pfl

  • Config description : Wikipedia dataset for pfl, parsed from 20201201 dump.

  • Download size : 3.51 MiB

  • Dataset size : 3.43 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 3,933

wikipedia/20201201.pi

  • Config description : Wikipedia dataset for pi, parsed from 20201201 dump.

  • Download size : 631.83 KiB

  • Dataset size : 2.05 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 3,074

wikipedia/20201201.pih

  • Config description : Wikipedia dataset for pih, parsed from 20201201 dump.

  • Download size : 750.70 KiB

  • Dataset size : 230.96 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 844

wikipedia/20201201.pl

  • Config description : Wikipedia dataset for pl, parsed from 20201201 dump.

  • Download size : 1.98 GiB

  • Dataset size : 2.46 GiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 1,765,088

wikipedia/20201201.pms

  • Config description : Wikipedia dataset for pms, parsed from 20201201 dump.

  • Download size : 13.90 MiB

  • Dataset size : 30.80 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 66,115

wikipedia/20201201.pnb

  • Config description : Wikipedia dataset for pnb, parsed from 20201201 dump.

  • Download size : 72.45 MiB

  • Dataset size : 209.71 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 64,698

wikipedia/20201201.pnt

  • Config description : Wikipedia dataset for pnt, parsed from 20201201 dump.

  • Download size : 549.36 KiB

  • Dataset size : 590.82 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 532

wikipedia/20201201.ps

  • Config description : Wikipedia dataset for ps, parsed from 20201201 dump.

  • Download size : 21.45 MiB

  • Dataset size : 46.15 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 13,138

wikipedia/20201201.pt

  • Config description : Wikipedia dataset for pt, parsed from 20201201 dump.

  • Download size : 1.79 GiB

  • Dataset size : 2.24 GiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 1,491,646

wikipedia/20201201.qu

  • Config description : Wikipedia dataset for qu, parsed from 20201201 dump.

  • Download size : 12.49 MiB

  • Dataset size : 15.85 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 31,387

wikipedia/20201201.rm

  • Config description : Wikipedia dataset for rm, parsed from 20201201 dump.

  • Download size : 6.92 MiB

  • Dataset size : 16.52 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 3,863

wikipedia/20201201.rmy

  • Config description : Wikipedia dataset for rmy, parsed from 20201201 dump.

  • Download size : 553.83 KiB

  • Dataset size : 396.09 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 733

wikipedia/20201201.rn

  • Config description : Wikipedia dataset for rn, parsed from 20201201 dump.

  • Download size : 815.81 KiB

  • Dataset size : 361.36 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 713

wikipedia/20201201.ro

  • Config description : Wikipedia dataset for ro, parsed from 20201201 dump.

  • Download size : 502.59 MiB

  • Dataset size : 693.68 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 414,477

wikipedia/20201201.roa-rup

  • Config description : Wikipedia dataset for roa-rup, parsed from 20201201 dump.

  • Download size : 1002.33 KiB

  • Dataset size : 1.11 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,260

wikipedia/20201201.roa-tara

  • Config description : Wikipedia dataset for roa-tara, parsed from 20201201 dump.

  • Download size : 6.20 MiB

  • Dataset size : 6.37 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 9,375

wikipedia/20201201.ru

  • Config description : Wikipedia dataset for ru, parsed from 20201201 dump.

  • Download size : 4.02 GiB

  • Dataset size : 8.08 GiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 2,732,016

wikipedia/20201201.rue

  • Config description : Wikipedia dataset for rue, parsed from 20201201 dump.

  • Download size : 5.41 MiB

  • Dataset size : 9.82 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 8,503

wikipedia/20201201.rw

  • Config description : Wikipedia dataset for rw, parsed from 20201201 dump.

  • Download size : 1.21 MiB

  • Dataset size : 1.60 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 2,142

wikipedia/20201201.sa

  • Config description : Wikipedia dataset for sa, parsed from 20201201 dump.

  • Download size : 15.19 MiB

  • Dataset size : 58.08 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 22,040

wikipedia/20201201.sah

  • Config description : Wikipedia dataset for sah, parsed from 20201201 dump.

  • Download size : 13.61 MiB

  • Dataset size : 35.90 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 16,796

wikipedia/20201201.sat

  • Config description : Wikipedia dataset for sat, parsed from 20201201 dump.

  • Download size : 10.00 MiB

  • Dataset size : 23.52 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 5,480

wikipedia/20201201.sc

  • Config description : Wikipedia dataset for sc, parsed from 20201201 dump.

  • Download size : 6.11 MiB

  • Dataset size : 9.70 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 6,970

wikipedia/20201201.scn

  • Config description : Wikipedia dataset for scn, parsed from 20201201 dump.

  • Download size : 12.05 MiB

  • Dataset size : 16.53 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 31,416

wikipedia/20201201.sco

  • Config description : Wikipedia dataset for sco, parsed from 20201201 dump.

  • Download size : 57.27 MiB

  • Dataset size : 47.09 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 42,615

wikipedia/20201201.sd

  • Config description : Wikipedia dataset for sd, parsed from 20201201 dump.

  • Download size : 17.62 MiB

  • Dataset size : 31.18 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 20,282

wikipedia/20201201.se

  • Config description : Wikipedia dataset for se, parsed from 20201201 dump.

  • Download size : 3.88 MiB

  • Dataset size : 3.36 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 8,561

wikipedia/20201201.sg

  • Config description : Wikipedia dataset for sg, parsed from 20201201 dump.

  • Download size : 313.06 KiB

  • Dataset size : 93.31 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 295

wikipedia/20201201.sh

  • Config description : Wikipedia dataset for sh, parsed from 20201201 dump.

  • Download size : 423.87 MiB

  • Dataset size : 822.87 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 3,935,417

wikipedia/20201201.si

  • Config description : Wikipedia dataset for si, parsed from 20201201 dump.

  • Download size : 41.32 MiB

  • Dataset size : 112.97 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 27,846

wikipedia/20201201.simple

  • Config description : Wikipedia dataset for simple, parsed from 20201201 dump.

  • Download size : 193.55 MiB

  • Dataset size : 197.50 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 177,615

wikipedia/20201201.sk

  • Config description : Wikipedia dataset for sk, parsed from 20201201 dump.

  • Download size : 275.53 MiB

  • Dataset size : 356.27 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 253,372

wikipedia/20201201.sl

  • Config description : Wikipedia dataset for sl, parsed from 20201201 dump.

  • Download size : 228.16 MiB

  • Dataset size : 360.64 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 202,357

wikipedia/20201201.sm

  • Config description : Wikipedia dataset for sm, parsed from 20201201 dump.

  • Download size : 839.52 KiB

  • Dataset size : 750.10 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,023

wikipedia/20201201.sn

  • Config description : Wikipedia dataset for sn, parsed from 20201201 dump.

  • Download size : 2.97 MiB

  • Dataset size : 4.90 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 6,779

wikipedia/20201201.so

  • Config description : Wikipedia dataset for so, parsed from 20201201 dump.

  • Download size : 9.13 MiB

  • Dataset size : 9.83 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 6,979

wikipedia/20201201.sq

  • Config description : Wikipedia dataset for sq, parsed from 20201201 dump.

  • Download size : 92.58 MiB

  • Dataset size : 153.56 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 111,846

wikipedia/20201201.sr

  • Config description : Wikipedia dataset for sr, parsed from 20201201 dump.

  • Download size : 825.89 MiB

  • Dataset size : 1.58 GiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 3,116,253

wikipedia/20201201.srn

  • Config description : Wikipedia dataset for srn, parsed from 20201201 dump.

  • Download size : 655.77 KiB

  • Dataset size : 614.35 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,253

wikipedia/20201201.ss

  • Config description : Wikipedia dataset for ss, parsed from 20201201 dump.

  • Download size : 827.67 KiB

  • Dataset size : 490.69 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 554

wikipedia/20201201.st

  • Config description : Wikipedia dataset for st, parsed from 20201201 dump.

  • Download size : 673.61 KiB

  • Dataset size : 580.35 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,136

wikipedia/20201201.stq

  • Config description : Wikipedia dataset for stq, parsed from 20201201 dump.

  • Download size : 3.44 MiB

  • Dataset size : 4.62 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 4,510

wikipedia/20201201.su

  • Config description : Wikipedia dataset for su, parsed from 20201201 dump.

  • Download size : 25.46 MiB

  • Dataset size : 40.87 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 66,493

wikipedia/20201201.sv

  • Config description : Wikipedia dataset for sv, parsed from 20201201 dump.

  • Download size : 1.67 GiB

  • Dataset size : 2.79 GiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 5,750,968

wikipedia/20201201.sw

  • Config description : Wikipedia dataset for sw, parsed from 20201201 dump.

  • Download size : 33.18 MiB

  • Dataset size : 52.26 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 60,185

wikipedia/20201201.szl

  • Config description : Wikipedia dataset for szl, parsed from 20201201 dump.

  • Download size : 11.88 MiB

  • Dataset size : 17.27 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 53,270

wikipedia/20201201.ta

  • Config description : Wikipedia dataset for ta, parsed from 20201201 dump.

  • Download size : 165.13 MiB

  • Dataset size : 632.77 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 167,112

wikipedia/20201201.tcy

  • Config description : Wikipedia dataset for tcy, parsed from 20201201 dump.

  • Download size : 3.64 MiB

  • Dataset size : 7.79 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,684

wikipedia/20201201.te

  • Config description : Wikipedia dataset for te, parsed from 20201201 dump.

  • Download size : 110.19 MiB

  • Dataset size : 591.09 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 94,652

wikipedia/20201201.tet

  • Config description : Wikipedia dataset for tet, parsed from 20201201 dump.

  • Download size : 1.25 MiB

  • Dataset size : 1.32 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,602

wikipedia/20201201.tg

  • Config description : Wikipedia dataset for tg, parsed from 20201201 dump.

  • Download size : 42.76 MiB

  • Dataset size : 110.97 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 105,298

wikipedia/20201201.th

  • Config description : Wikipedia dataset for th, parsed from 20201201 dump.

  • Download size : 290.74 MiB

  • Dataset size : 823.58 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 245,869

wikipedia/20201201.ti

  • Config description : Wikipedia dataset for ti, parsed from 20201201 dump.

  • Download size : 533.37 KiB

  • Dataset size : 376.02 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 369

wikipedia/20201201.tk

  • Config description : Wikipedia dataset for tk, parsed from 20201201 dump.

  • Download size : 5.03 MiB

  • Dataset size : 10.63 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 7,122

wikipedia/20201201.tl

  • Config description : Wikipedia dataset for tl, parsed from 20201201 dump.

  • Download size : 61.86 MiB

  • Dataset size : 66.60 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 64,930

wikipedia/20201201.tn

  • Config description : Wikipedia dataset for tn, parsed from 20201201 dump.

  • Download size : 1.42 MiB

  • Dataset size : 1.48 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 834

wikipedia/20201201.to

  • Config description : Wikipedia dataset for to, parsed from 20201201 dump.

  • Download size : 818.38 KiB

  • Dataset size : 921.00 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,628

wikipedia/20201201.tpi

  • Config description : Wikipedia dataset for tpi, parsed from 20201201 dump.

  • Download size : 1.45 MiB

  • Dataset size : 408.34 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,656

wikipedia/20201201.tr

  • Config description : Wikipedia dataset for tr, parsed from 20201201 dump.

  • Download size : 613.30 MiB

  • Dataset size : 724.38 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 624,333

wikipedia/20201201.ts

  • Config description : Wikipedia dataset for ts, parsed from 20201201 dump.

  • Download size : 1.59 MiB

  • Dataset size : 713.63 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 713

wikipedia/20201201.tt

  • Config description : Wikipedia dataset for tt, parsed from 20201201 dump.

  • Download size : 75.07 MiB

  • Dataset size : 248.79 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 278,882

wikipedia/20201201.tum

  • Config description : Wikipedia dataset for tum, parsed from 20201201 dump.

  • Download size : 352.25 KiB

  • Dataset size : 231.66 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 718

wikipedia/20201201.tw

  • Config description : Wikipedia dataset for tw, parsed from 20201201 dump.

  • Download size : 449.69 KiB

  • Dataset size : 339.91 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 782

wikipedia/20201201.ty

  • Config description : Wikipedia dataset for ty, parsed from 20201201 dump.

  • Download size : 517.96 KiB

  • Dataset size : 260.86 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,291

wikipedia/20201201.tyv

  • Config description : Wikipedia dataset for tyv, parsed from 20201201 dump.

  • Download size : 4.59 MiB

  • Dataset size : 11.86 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 3,779

wikipedia/20201201.udm

  • Config description : Wikipedia dataset for udm, parsed from 20201201 dump.

  • Download size : 3.39 MiB

  • Dataset size : 6.07 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 6,191

wikipedia/20201201.ug

  • Config description : Wikipedia dataset for ug, parsed from 20201201 dump.

  • Download size : 7.70 MiB

  • Dataset size : 36.13 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 7,258

wikipedia/20201201.uk

  • Config description : Wikipedia dataset for uk, parsed from 20201201 dump.

  • Download size : 1.60 GiB

  • Dataset size : 3.66 GiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 1,611,728

wikipedia/20201201.ur

  • Config description : Wikipedia dataset for ur, parsed from 20201201 dump.

  • Download size : 162.89 MiB

  • Dataset size : 264.08 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 350,090

wikipedia/20201201.uz

  • Config description : Wikipedia dataset for uz, parsed from 20201201 dump.

  • Download size : 67.47 MiB

  • Dataset size : 99.16 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 158,823

wikipedia/20201201.ve

  • Config description : Wikipedia dataset for ve, parsed from 20201201 dump.

  • Download size : 283.99 KiB

  • Dataset size : 219.86 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 446

wikipedia/20201201.vec

  • Config description : Wikipedia dataset for vec, parsed from 20201201 dump.

  • Download size : 21.88 MiB

  • Dataset size : 28.21 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 71,790

wikipedia/20201201.vep

  • Config description : Wikipedia dataset for vep, parsed from 20201201 dump.

  • Download size : 6.30 MiB

  • Dataset size : 9.16 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 8,027

wikipedia/20201201.vi

  • Config description : Wikipedia dataset for vi, parsed from 20201201 dump.

  • Download size : 793.00 MiB

  • Dataset size : 1.32 GiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 1,465,721

wikipedia/20201201.vls

  • Config description : Wikipedia dataset for vls, parsed from 20201201 dump.

  • Download size : 7.03 MiB

  • Dataset size : 10.33 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 7,778

wikipedia/20201201.vo

  • Config description : Wikipedia dataset for vo, parsed from 20201201 dump.

  • Download size : 24.97 MiB

  • Dataset size : 80.77 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 125,494

wikipedia/20201201.wa

  • Config description : Wikipedia dataset for wa, parsed from 20201201 dump.

  • Download size : 8.29 MiB

  • Dataset size : 12.44 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 14,373

wikipedia/20201201.war

  • Config description : Wikipedia dataset for war, parsed from 20201201 dump.

  • Download size : 263.43 MiB

  • Dataset size : 412.79 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 1,264,845

wikipedia/20201201.wo

  • Config description : Wikipedia dataset for wo, parsed from 20201201 dump.

  • Download size : 1.97 MiB

  • Dataset size : 3.25 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,664

wikipedia/20201201.wuu

  • Config description : Wikipedia dataset for wuu, parsed from 20201201 dump.

  • Download size : 15.28 MiB

  • Dataset size : 20.74 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 42,762

wikipedia/20201201.xal

  • Config description : Wikipedia dataset for xal, parsed from 20201201 dump.

  • Download size : 1.71 MiB

  • Dataset size : 1.17 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 2,801

wikipedia/20201201.xh

  • Config description : Wikipedia dataset for xh, parsed from 20201201 dump.

  • Download size : 1.52 MiB

  • Dataset size : 1.77 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,373

wikipedia/20201201.xmf

  • Config description : Wikipedia dataset for xmf, parsed from 20201201 dump.

  • Download size : 11.13 MiB

  • Dataset size : 26.69 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 16,061

wikipedia/20201201.yi

  • Config description : Wikipedia dataset for yi, parsed from 20201201 dump.

  • Download size : 12.62 MiB

  • Dataset size : 33.30 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 25,227

wikipedia/20201201.yo

  • Config description : Wikipedia dataset for yo, parsed from 20201201 dump.

  • Download size : 14.22 MiB

  • Dataset size : 12.09 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 33,548

wikipedia/20201201.za

  • Config description : Wikipedia dataset for za, parsed from 20201201 dump.

  • Download size : 791.45 KiB

  • Dataset size : 721.42 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 2,496

wikipedia/20201201.zea

  • Config description : Wikipedia dataset for zea, parsed from 20201201 dump.

  • Download size : 2.56 MiB

  • Dataset size : 4.46 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 5,599

wikipedia/20201201.zh

  • Config description : Wikipedia dataset for zh, parsed from 20201201 dump.

  • Download size : 2.05 GiB

  • Dataset size : 2.08 GiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 1,670,356

wikipedia/20201201.zh-classical

  • Config description : Wikipedia dataset for zh-classical, parsed from 20201201 dump.

  • Download size : 14.89 MiB

  • Dataset size : 10.27 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 12,237

wikipedia/20201201.zh-min-nan

  • Config description : Wikipedia dataset for zh-min-nan, parsed from 20201201 dump.

  • Download size : 73.64 MiB

  • Dataset size : 130.73 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 448,229

wikipedia/20201201.zh-yue

  • Config description : Wikipedia dataset for zh-yue, parsed from 20201201 dump.

  • Download size : 67.14 MiB

  • Dataset size : 71.77 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 103,834

wikipedia/20201201.zu

  • Config description : Wikipedia dataset for zu, parsed from 20201201 dump.

  • Download size : 2.43 MiB

  • Dataset size : 2.08 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 5,359

wikipedia/20200301.aa

  • Config description : Wikipedia dataset for aa, parsed from 20200301 dump.

  • Download size : 44.96 KiB

  • Dataset size : 3.46 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1

wikipedia/20200301.ab

  • Config description : Wikipedia dataset for ab, parsed from 20200301 dump.

  • Download size : 1.74 MiB

  • Dataset size : 2.79 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 7,108

wikipedia/20200301.ace

  • Config description : Wikipedia dataset for ace, parsed from 20200301 dump.

  • Download size : 2.93 MiB

  • Dataset size : 3.69 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 11,501

wikipedia/20200301.ady

  • Config description : Wikipedia dataset for ady, parsed from 20200301 dump.

  • Download size : 394.09 KiB

  • Dataset size : 505.97 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 553

wikipedia/20200301.af

  • Config description : Wikipedia dataset for af, parsed from 20200301 dump.

  • Download size : 99.17 MiB

  • Dataset size : 179.95 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 110,483

wikipedia/20200301.ak

  • Config description : Wikipedia dataset for ak, parsed from 20200301 dump.

  • Download size : 462.66 KiB

  • Dataset size : 247.24 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 993

wikipedia/20200301.als

  • Config description : Wikipedia dataset for als, parsed from 20200301 dump.

  • Download size : 51.03 MiB

  • Dataset size : 68.56 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 29,318

wikipedia/20200301.am

  • Config description : Wikipedia dataset for am, parsed from 20200301 dump.

  • Download size : 6.82 MiB

  • Dataset size : 16.64 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 13,400

wikipedia/20200301.an

  • Config description : Wikipedia dataset for an, parsed from 20200301 dump.

  • Download size : 32.94 MiB

  • Dataset size : 46.63 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 50,774

wikipedia/20200301.ang

  • Config description : Wikipedia dataset for ang, parsed from 20200301 dump.

  • Download size : 4.13 MiB

  • Dataset size : 2.43 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 3,249

wikipedia/20200301.ar

  • Config description : Wikipedia dataset for ar, parsed from 20200301 dump.

  • Download size : 1.08 GiB

  • Dataset size : 2.09 GiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 1,972,799

wikipedia/20200301.arc

  • Config description : Wikipedia dataset for arc, parsed from 20200301 dump.

  • Download size : 1.03 MiB

  • Dataset size : 778.26 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 3,305

wikipedia/20200301.arz

  • Config description : Wikipedia dataset for arz, parsed from 20200301 dump.

  • Download size : 36.61 MiB

  • Dataset size : 115.13 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 157,001

wikipedia/20200301.as

  • Config description : Wikipedia dataset for as, parsed from 20200301 dump.

  • Download size : 21.48 MiB

  • Dataset size : 40.49 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 6,509

wikipedia/20200301.ast

  • Config description : Wikipedia dataset for ast, parsed from 20200301 dump.

  • Download size : 217.68 MiB

  • Dataset size : 445.91 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 108,220

wikipedia/20200301.atj

  • Config description : Wikipedia dataset for atj, parsed from 20200301 dump.

  • Download size : 546.89 KiB

  • Dataset size : 664.04 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,175

wikipedia/20200301.av

  • Config description : Wikipedia dataset for av, parsed from 20200301 dump.

  • Download size : 4.47 MiB

  • Dataset size : 3.23 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 3,075

wikipedia/20200301.ay

  • Config description : Wikipedia dataset for ay, parsed from 20200301 dump.

  • Download size : 2.19 MiB

  • Dataset size : 4.04 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 5,039

wikipedia/20200301.az

  • Config description : Wikipedia dataset for az, parsed from 20200301 dump.

  • Download size : 181.30 MiB

  • Dataset size : 317.17 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 175,038

wikipedia/20200301.azb

  • Config description : Wikipedia dataset for azb, parsed from 20200301 dump.

  • Download size : 76.38 MiB

  • Dataset size : 131.83 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 208,456

wikipedia/20200301.ba

  • Config description : Wikipedia dataset for ba, parsed from 20200301 dump.

  • Download size : 64.46 MiB

  • Dataset size : 181.18 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 56,822

wikipedia/20200301.bar

  • Config description : Wikipedia dataset for bar, parsed from 20200301 dump.

  • Download size : 32.17 MiB

  • Dataset size : 40.40 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 46,363

wikipedia/20200301.bat-smg

  • Config description : Wikipedia dataset for bat-smg, parsed from 20200301 dump.

  • Download size : 4.82 MiB

  • Dataset size : 6.63 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 19,665

wikipedia/20200301.bcl

  • Config description : Wikipedia dataset for bcl, parsed from 20200301 dump.

  • Download size : 7.59 MiB

  • Dataset size : 8.70 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 9,581

wikipedia/20200301.be

  • Config description : Wikipedia dataset for be, parsed from 20200301 dump.

  • Download size : 208.69 MiB

  • Dataset size : 433.16 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 185,758

wikipedia/20200301.be-x-old

  • Config description : Wikipedia dataset for be-x-old, parsed from 20200301 dump.

  • Download size : 79.73 MiB

  • Dataset size : 178.12 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 99,513

wikipedia/20200301.bg

  • Config description : Wikipedia dataset for bg, parsed from 20200301 dump.

  • Download size : 344.69 MiB

  • Dataset size : 866.33 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 377,391

wikipedia/20200301.bh

  • Config description : Wikipedia dataset for bh, parsed from 20200301 dump.

  • Download size : 13.79 MiB

  • Dataset size : 10.36 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 7,035

wikipedia/20200301.bi

  • Config description : Wikipedia dataset for bi, parsed from 20200301 dump.

  • Download size : 444.50 KiB

  • Dataset size : 298.56 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,392

wikipedia/20200301.bjn

  • Config description : Wikipedia dataset for bjn, parsed from 20200301 dump.

  • Download size : 2.68 MiB

  • Dataset size : 2.57 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 3,431

wikipedia/20200301.bm

  • Config description : Wikipedia dataset for bm, parsed from 20200301 dump.

  • Download size : 464.48 KiB

  • Dataset size : 351.32 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 745

wikipedia/20200301.bn

  • Config description : Wikipedia dataset for bn, parsed from 20200301 dump.

  • Download size : 183.92 MiB

  • Dataset size : 482.94 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 119,216

wikipedia/20200301.bo

  • Config description : Wikipedia dataset for bo, parsed from 20200301 dump.

  • Download size : 13.17 MiB

  • Dataset size : 116.42 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 11,575

wikipedia/20200301.bpy

  • Config description : Wikipedia dataset for bpy, parsed from 20200301 dump.

  • Download size : 5.11 MiB

  • Dataset size : 39.43 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 25,416

wikipedia/20200301.br

  • Config description : Wikipedia dataset for br, parsed from 20200301 dump.

  • Download size : 50.39 MiB

  • Dataset size : 72.08 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 77,940

wikipedia/20200301.bs

  • Config description : Wikipedia dataset for bs, parsed from 20200301 dump.

  • Download size : 110.31 MiB

  • Dataset size : 150.33 MiB

  • Auto-cached ( documentation ): Only when shuffle_files=False (train)

  • Splits :

Split Examples
'train' 185,885

wikipedia/20200301.bug

  • Config description : Wikipedia dataset for bug, parsed from 20200301 dump.

  • Download size : 1.82 MiB

  • Dataset size : 2.74 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 14,411

wikipedia/20200301.bxr

  • Config description : Wikipedia dataset for bxr, parsed from 20200301 dump.

  • Download size : 3.26 MiB

  • Dataset size : 5.67 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 2,653

wikipedia/20200301.ca

  • Config description : Wikipedia dataset for ca, parsed from 20200301 dump.

  • Download size : 899.00 MiB

  • Dataset size : 1.50 GiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 698,894

wikipedia/20200301.cbk-zam

  • Config description : Wikipedia dataset for cbk-zam, parsed from 20200301 dump.

  • Download size : 1.86 MiB

  • Dataset size : 2.94 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 3,366

wikipedia/20200301.cdo

  • Config description : Wikipedia dataset for cdo, parsed from 20200301 dump.

  • Download size : 4.37 MiB

  • Dataset size : 3.99 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 16,785

wikipedia/20200301.ce

  • Config description : Wikipedia dataset for ce, parsed from 20200301 dump.

  • Download size : 49.70 MiB

  • Dataset size : 254.09 MiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 259,152

wikipedia/20200301.ceb

  • Config description : Wikipedia dataset for ceb, parsed from 20200301 dump.

  • Download size : 1.84 GiB

  • Dataset size : 3.68 GiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 5,378,741

wikipedia/20200301.ch

  • Config description : Wikipedia dataset for ch, parsed from 20200301 dump.

  • Download size : 707.12 KiB

  • Dataset size : 167.80 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 541

wikipedia/20200301.cho

  • Config description : Wikipedia dataset for cho, parsed from 20200301 dump.

  • Download size : 26.88 KiB

  • Dataset size : 7.44 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 14

wikipedia/20200301.chr

  • Config description : Wikipedia dataset for chr, parsed from 20200301 dump.

  • Download size : 644.28 KiB

  • Dataset size : 629.37 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 962

wikipedia/20200301.chy

  • Config description : Wikipedia dataset for chy, parsed from 20200301 dump.

  • Download size : 340.35 KiB

  • Dataset size : 116.39 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 780

wikipedia/20200301.ckb

  • Config description : Wikipedia dataset for ckb, parsed from 20200301 dump.

  • Download size : 26.96 MiB

  • Dataset size : 46.82 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 25,695

wikipedia/20200301.co

  • Config description : Wikipedia dataset for co, parsed from 20200301 dump.

  • Download size : 3.54 MiB

  • Dataset size : 5.85 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 6,465

wikipedia/20200301.cr

  • Config description : Wikipedia dataset for cr, parsed from 20200301 dump.

  • Download size : 271.60 KiB

  • Dataset size : 31.60 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 120

wikipedia/20200301.crh

  • Config description : Wikipedia dataset for crh, parsed from 20200301 dump.

  • Download size : 4.38 MiB

  • Dataset size : 2.74 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 7,093

wikipedia/20200301.cs

  • Config description : Wikipedia dataset for cs, parsed from 20200301 dump.

  • Download size : 825.14 MiB

  • Dataset size : 1.15 GiB

  • Auto-cached ( documentation ): No

  • Splits :

Split Examples
'train' 574,136

wikipedia/20200301.csb

  • Config description : Wikipedia dataset for csb, parsed from 20200301 dump.

  • Download size : 2.13 MiB

  • Dataset size : 3.36 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 5,696

wikipedia/20200301.cu

  • Config description : Wikipedia dataset for cu, parsed from 20200301 dump.

  • Download size : 665.69 KiB

  • Dataset size : 672.01 KiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 1,520

wikipedia/20200301.cv

  • Config description : Wikipedia dataset for cv, parsed from 20200301 dump.

  • Download size : 23.37 MiB

  • Dataset size : 59.96 MiB

  • Auto-cached ( documentation ): Yes

  • Splits :

Split Examples
'train' 45,907

wikipedia/20200301.cy

  • Config description : Wikipedia dataset for cy, parsed from 20200301 dump.

  • Download size : 69.14 MiB

  • Dataset size : 100.36 MiB

  • Auto-cached ( document