امروز برای رویداد محلی TensorFlow خود در همه جا پاسخ دهید!
این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

wiki40b

  • توضیحات :

متن پاک کردن 40+ نسخه زبانهای ویکی پدیا از صفحات مربوط به موجودات است. مجموعه داده ها به ازای هر زبان دارای شکاف train / dev / test است. مجموعه داده با فیلتر کردن صفحه پاک می شود تا صفحات ابهام زدایی ، صفحات هدایت مجدد ، صفحات حذف شده و صفحات غیر موجود را حذف کند. هر مثال شامل شناسه wikidata موجودیت و مقاله کامل ویکی پدیا پس از پردازش صفحه است که بخشهای غیرمحتوا و اشیا ساختاریافته را حذف می کند. مدلهای زبان آموزش دیده در این مجموعه - شامل 41 مدل یک زبانه و 2 مدل چند زبانه - را می توان در https: //tfhub.dev/google/collections/wiki40b-lm/1 پیدا کرد.

FeaturesDict({
    'text': Text(shape=(), dtype=tf.string),
    'version_id': Text(shape=(), dtype=tf.string),
    'wikidata_id': Text(shape=(), dtype=tf.string),
})
  • کلیدهای تحت نظارت (به as_supervised سند نظارت شده مراجعه کنید): None

  • نقل قول :

@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b / en (پیکربندی پیش فرض)

  • شرح پیکربندی : مجموعه داده Wiki40B برای en.

  • اندازه مجموعه داده : 9.91 GiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 162،274
'train' 2،926،536
'validation' 163،597

wiki40b / ar

  • شرح پیکربندی : مجموعه داده Wiki40B برای ar.

  • اندازه مجموعه داده : 833.20 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 12271
'train' 220،885
'validation' 12،198

wiki40b / zh-cn

  • شرح پیکربندی : مجموعه داده Wiki40B برای zh-cn.

  • اندازه مجموعه داده : 985.53 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 30،355
'train' 549 672
'validation' 30،299

wiki40b / zh-tw

  • شرح پیکربندی : مجموعه داده Wiki40B برای zh-tw.

  • اندازه مجموعه داده : 986.45 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 30،670
'train' 552،031
'validation' 30،739

wiki40b / nl

  • شرح پیکربندی : مجموعه داده Wiki40B برای nl.

  • اندازه مجموعه داده : 961.82 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 24،776
'train' 447،555
'validation' 25،201

wiki40b / fr

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای fr.

  • اندازه مجموعه داده : 3.37 GiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 68،004
'train' 1،227،206
'validation' 68655

wiki40b / de

  • شرح پیکربندی : مجموعه داده Wiki40B برای de.

  • اندازه مجموعه داده : 4.78 GiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 86،594
'train' 1،554،910
'validation' 86،068

wiki40b / it

  • شرح پیکربندی : مجموعه داده Wiki40B برای آن.

  • اندازه مجموعه داده : 2.00 GiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 40443
'train' 732،609
'validation' 40،684

wiki40b / ja

  • شرح پیکربندی : مجموعه داده Wiki40B برای ja.

  • اندازه مجموعه داده : 2.19 GiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 41،268
'train' 745،392
'validation' 41،576

wiki40b / ko

  • شرح پیکربندی : مجموعه داده Wiki40B برای ko.

  • اندازه مجموعه داده : 453.98 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 10802
'train' 194،977
'validation' 10805

wiki40b / pl

  • شرح پیکربندی : مجموعه داده Wiki40B برای pl.

  • اندازه مجموعه داده : 1.03 GiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 27،987
'train' 505،191
'validation' 28310

wiki40b / pt

  • شرح پیکربندی : مجموعه داده Wiki40B برای pt.

  • اندازه مجموعه داده : 1.08 GiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 22،693
'train' 406،507
'validation' 22،301

wiki40b / ru

  • شرح پیکربندی : مجموعه داده Wiki40B برای ru.

  • اندازه مجموعه داده : 4.13 GiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 51،885
'train' 926،037
'validation' 51،287

wiki40b / es

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای es.

  • اندازه مجموعه داده : 2.70 GiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 48،764
'train' 872،541
'validation' 48،592

ویکی 40b / th

  • شرح پیکربندی : مجموعه داده Wiki40B برای th.

  • اندازه مجموعه داده : 326.29 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 3،114
'train' 56،798
'validation' 3،093

wiki40b / tr

  • شرح پیکربندی : مجموعه داده Wiki40B برای tr.

  • اندازه مجموعه داده : 308.87 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 7،890
'train' 142،576
'validation' 7،845

wiki40b / bg

  • شرح پیکربندی : مجموعه داده Wiki40B برای bg.

  • اندازه مجموعه داده : 433.20 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 7،289
'train' 130،670
'validation' 7259

wiki40b / ca

  • شرح پیکربندی : مجموعه داده Wiki40B برای حدود.

  • اندازه مجموعه داده : 753.00 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 15568
'train' 277،313
'validation' 15،362

wiki40b / cs

  • شرح پیکربندی : مجموعه داده Wiki40B برای cs.

  • اندازه مجموعه داده : 631.84 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 12،984
'train' 235،971
'validation' 13،096

wiki40b / da

  • شرح پیکربندی : مجموعه داده Wiki40B برای da.

  • اندازه مجموعه داده : 240.51 MiB

  • ذخیره خودکار ( مستندات ): بله (آزمون ، اعتبار سنجی) ، فقط وقتی shuffle_files=False (قطار)

  • تقسیم :

شکاف مثال ها
'test' 6،219
'train' 109،486
'validation' 6173

wiki40b / el

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای el.

  • اندازه مجموعه داده : 524.77 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 5،261
'train' 93،596
'validation' 5،130

wiki40b / et

  • شرح پیکربندی : مجموعه داده Wiki40B برای et.

  • اندازه مجموعه داده : 184.07 MiB

  • ذخیره خودکار ( مستندات ): بله (آزمون ، اعتبار سنجی) ، فقط وقتی shuffle_files=False (قطار)

  • تقسیم :

شکاف مثال ها
'test' 6205
'train' 114،464
'validation' 6،351

wiki40b / fa

  • شرح پیکربندی : مجموعه داده Wiki40B برای fa.

  • اندازه مجموعه داده : 482.55 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 11،262
'train' 203،145
'validation' 11 هزار و 180

wiki40b / fi

  • شرح پیکربندی : مجموعه داده Wiki40B برای fi.

  • اندازه مجموعه داده : 534.13 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 14،179
'train' 255،822
'validation' 13،962

wiki40b / he

  • شرح پیکربندی : مجموعه داده Wiki40B برای او.

  • اندازه مجموعه داده : 869.51 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 9344
'train' 165،359
'validation' 9،231

wiki40b / سلام

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای سلام.

  • اندازه مجموعه داده : 277.56 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 2،643
'train' 45،737
'validation' 2596

ویکی 40b / ساعت

  • شرح پیکربندی : مجموعه داده Wiki40B برای ساعت.

  • اندازه مجموعه داده : 235.58 MiB

  • ذخیره خودکار ( مستندات ): بله (آزمون ، اعتبار سنجی) ، فقط وقتی shuffle_files=False (قطار)

  • تقسیم :

شکاف مثال ها
'test' 5،724
'train' 103،857
'validation' 5،792

wiki40b / hu

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای hu.

  • اندازه مجموعه داده : 634.25 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 15،258
'train' 273،248
'validation' 15208

wiki40b / id

  • شرح پیکربندی : مجموعه داده Wiki40B برای شناسه.

  • اندازه مجموعه داده : 334.06 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 8598
'train' 156،255
'validation' 8،714

wiki40b / lt

  • توضیحات پیکربندی : مجموعه داده Wiki40B برای lt.

  • اندازه مجموعه داده : 140.46 MiB

  • ذخیره خودکار ( مستندات ): بله

  • تقسیم :

شکاف مثال ها
'test' 4،683
'train' 84،854
'validation' 4،754

wiki40b / lv

  • شرح پیکربندی : مجموعه داده Wiki40B برای lv.

  • اندازه مجموعه داده : 80.07 MiB

  • ذخیره خودکار ( مستندات ): بله

  • تقسیم :

شکاف مثال ها
'test' 1،932
'train' 33،064
'validation' 1،857

wiki40b / ms

  • شرح پیکربندی : مجموعه داده Wiki40B برای MS.

  • اندازه مجموعه داده : 142.49 MiB

  • ذخیره خودکار ( مستندات ): بله (آزمون ، اعتبار سنجی) ، فقط وقتی shuffle_files=False (قطار)

  • تقسیم :

شکاف مثال ها
'test' 5235
'train' 97،509
'validation' 5،357

wiki40b / no

  • شرح پیکربندی : مجموعه داده Wiki40B برای شماره.

  • اندازه مجموعه داده : 382.03 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 10،588
'train' 190،588
'validation' 10،547

wiki40b / ro

  • شرح پیکربندی : مجموعه داده Wiki40B برای ro.

  • اندازه مجموعه داده : 319.68 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 7،870
'train' 139،615
'validation' 7،624

wiki40b / sk

  • شرح پیکربندی : مجموعه داده Wiki40B برای sk.

  • اندازه مجموعه داده : 170.20 MiB

  • ذخیره خودکار ( مستندات ): بله (آزمون ، اعتبار سنجی) ، فقط وقتی shuffle_files=False (قطار)

  • تقسیم :

شکاف مثال ها
'test' 5،741
'train' 103،095
'validation' 5604

wiki40b / sl

  • شرح پیکربندی : مجموعه داده Wiki40B برای sl.

  • اندازه مجموعه داده : 157.38 MiB

  • ذخیره خودکار ( مستندات ): بله (آزمون ، اعتبار سنجی) ، فقط وقتی shuffle_files=False (قطار)

  • تقسیم :

شکاف مثال ها
'test' 3،341
'train' 60،927
'validation' 3،287

wiki40b / sr

  • شرح پیکربندی : مجموعه داده Wiki40B برای sr.

  • اندازه مجموعه داده : 582.20 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 17997
'train' 327،313
'validation' 18100

wiki40b / sv

  • شرح پیکربندی : مجموعه داده Wiki40B برای sv.

  • اندازه مجموعه داده : 613.62 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 22،291
'train' 400،742
'validation' 22،263

wiki40b / tl

  • شرح پیکربندی : مجموعه داده Wiki40B برای tl.

  • اندازه مجموعه داده : 29.04 MiB

  • ذخیره خودکار ( مستندات ): بله

  • تقسیم :

شکاف مثال ها
'test' 1،446
'train' 25940
'validation' 1،472

wiki40b / uk

  • شرح پیکربندی : مجموعه داده Wiki40B برای انگلستان.

  • اندازه مجموعه داده : 1.67 GiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 26،581
'train' 477،618
'validation' 26،324

wiki40b / vi

  • شرح پیکربندی : مجموعه داده Wiki40B برای vi.

  • اندازه مجموعه داده : 497.70 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 7،942
'train' 146255
'validation' 8،195