- توضیحات :
متن پاک کردن 40+ نسخه زبانهای ویکی پدیا از صفحات مربوط به موجودات است. مجموعه داده ها به ازای هر زبان دارای شکاف train / dev / test است. مجموعه داده با فیلتر کردن صفحه پاک می شود تا صفحات ابهام زدایی ، صفحات هدایت مجدد ، صفحات حذف شده و صفحات غیر موجود را حذف کند. هر مثال شامل شناسه wikidata موجودیت و مقاله کامل ویکی پدیا پس از پردازش صفحه است که بخشهای غیرمحتوا و اشیا ساختاریافته را حذف می کند. مدلهای زبان آموزش دیده در این مجموعه - شامل 41 مدل یک زبانه و 2 مدل چند زبانه - را می توان در https: //tfhub.dev/google/collections/wiki40b-lm/1 پیدا کرد.
صفحه اصلی : https://research.google/pubs/pub49029/
کد منبع :
tfds.text.Wiki40b
نسخه ها :
-
1.3.0
(پیش فرض): بدون یادداشت انتشار.
-
اندازه بارگیری :
Unknown size
ویژگی ها :
FeaturesDict({
'text': Text(shape=(), dtype=tf.string),
'version_id': Text(shape=(), dtype=tf.string),
'wikidata_id': Text(shape=(), dtype=tf.string),
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):None
نقل قول :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
- شکل ( tfds.show_examples ): پشتیبانی نمی شود.
wiki40b / en (پیکربندی پیش فرض)
شرح پیکربندی : مجموعه داده Wiki40B برای en.
اندازه مجموعه داده :
9.91 GiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 162،274 |
'train' | 2،926،536 |
'validation' | 163،597 |
- مثالها ( tfds.as_dataframe ):
wiki40b / ar
شرح پیکربندی : مجموعه داده Wiki40B برای ar.
اندازه مجموعه داده :
833.20 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 12271 |
'train' | 220،885 |
'validation' | 12،198 |
- مثالها ( tfds.as_dataframe ):
wiki40b / zh-cn
شرح پیکربندی : مجموعه داده Wiki40B برای zh-cn.
اندازه مجموعه داده :
985.53 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 30،355 |
'train' | 549 672 |
'validation' | 30،299 |
- مثالها ( tfds.as_dataframe ):
wiki40b / zh-tw
شرح پیکربندی : مجموعه داده Wiki40B برای zh-tw.
اندازه مجموعه داده :
986.45 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 30،670 |
'train' | 552،031 |
'validation' | 30،739 |
- مثالها ( tfds.as_dataframe ):
wiki40b / nl
شرح پیکربندی : مجموعه داده Wiki40B برای nl.
اندازه مجموعه داده :
961.82 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 24،776 |
'train' | 447،555 |
'validation' | 25،201 |
- مثالها ( tfds.as_dataframe ):
wiki40b / fr
توضیحات پیکربندی : مجموعه داده Wiki40B برای fr.
اندازه مجموعه داده :
3.37 GiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 68،004 |
'train' | 1،227،206 |
'validation' | 68655 |
- مثالها ( tfds.as_dataframe ):
wiki40b / de
شرح پیکربندی : مجموعه داده Wiki40B برای de.
اندازه مجموعه داده :
4.78 GiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 86،594 |
'train' | 1،554،910 |
'validation' | 86،068 |
- مثالها ( tfds.as_dataframe ):
wiki40b / it
شرح پیکربندی : مجموعه داده Wiki40B برای آن.
اندازه مجموعه داده :
2.00 GiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 40443 |
'train' | 732،609 |
'validation' | 40،684 |
- مثالها ( tfds.as_dataframe ):
wiki40b / ja
شرح پیکربندی : مجموعه داده Wiki40B برای ja.
اندازه مجموعه داده :
2.19 GiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 41،268 |
'train' | 745،392 |
'validation' | 41،576 |
- مثالها ( tfds.as_dataframe ):
wiki40b / ko
شرح پیکربندی : مجموعه داده Wiki40B برای ko.
اندازه مجموعه داده :
453.98 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 10802 |
'train' | 194،977 |
'validation' | 10805 |
- مثالها ( tfds.as_dataframe ):
wiki40b / pl
شرح پیکربندی : مجموعه داده Wiki40B برای pl.
اندازه مجموعه داده :
1.03 GiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 27،987 |
'train' | 505،191 |
'validation' | 28310 |
- مثالها ( tfds.as_dataframe ):
wiki40b / pt
شرح پیکربندی : مجموعه داده Wiki40B برای pt.
اندازه مجموعه داده :
1.08 GiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 22،693 |
'train' | 406،507 |
'validation' | 22،301 |
- مثالها ( tfds.as_dataframe ):
wiki40b / ru
شرح پیکربندی : مجموعه داده Wiki40B برای ru.
اندازه مجموعه داده :
4.13 GiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 51،885 |
'train' | 926،037 |
'validation' | 51،287 |
- مثالها ( tfds.as_dataframe ):
wiki40b / es
توضیحات پیکربندی : مجموعه داده Wiki40B برای es.
اندازه مجموعه داده :
2.70 GiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 48،764 |
'train' | 872،541 |
'validation' | 48،592 |
- مثالها ( tfds.as_dataframe ):
ویکی 40b / th
شرح پیکربندی : مجموعه داده Wiki40B برای th.
اندازه مجموعه داده :
326.29 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 3،114 |
'train' | 56،798 |
'validation' | 3،093 |
- مثالها ( tfds.as_dataframe ):
wiki40b / tr
شرح پیکربندی : مجموعه داده Wiki40B برای tr.
اندازه مجموعه داده :
308.87 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 7،890 |
'train' | 142،576 |
'validation' | 7،845 |
- مثالها ( tfds.as_dataframe ):
wiki40b / bg
شرح پیکربندی : مجموعه داده Wiki40B برای bg.
اندازه مجموعه داده :
433.20 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 7،289 |
'train' | 130،670 |
'validation' | 7259 |
- مثالها ( tfds.as_dataframe ):
wiki40b / ca
شرح پیکربندی : مجموعه داده Wiki40B برای حدود.
اندازه مجموعه داده :
753.00 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 15568 |
'train' | 277،313 |
'validation' | 15،362 |
- مثالها ( tfds.as_dataframe ):
wiki40b / cs
شرح پیکربندی : مجموعه داده Wiki40B برای cs.
اندازه مجموعه داده :
631.84 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 12،984 |
'train' | 235،971 |
'validation' | 13،096 |
- مثالها ( tfds.as_dataframe ):
wiki40b / da
شرح پیکربندی : مجموعه داده Wiki40B برای da.
اندازه مجموعه داده :
240.51 MiB
ذخیره خودکار ( مستندات ): بله (آزمون ، اعتبار سنجی) ، فقط وقتی
shuffle_files=False
(قطار)تقسیم :
شکاف | مثال ها |
---|---|
'test' | 6،219 |
'train' | 109،486 |
'validation' | 6173 |
- مثالها ( tfds.as_dataframe ):
wiki40b / el
توضیحات پیکربندی : مجموعه داده Wiki40B برای el.
اندازه مجموعه داده :
524.77 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 5،261 |
'train' | 93،596 |
'validation' | 5،130 |
- مثالها ( tfds.as_dataframe ):
wiki40b / et
شرح پیکربندی : مجموعه داده Wiki40B برای et.
اندازه مجموعه داده :
184.07 MiB
ذخیره خودکار ( مستندات ): بله (آزمون ، اعتبار سنجی) ، فقط وقتی
shuffle_files=False
(قطار)تقسیم :
شکاف | مثال ها |
---|---|
'test' | 6205 |
'train' | 114،464 |
'validation' | 6،351 |
- مثالها ( tfds.as_dataframe ):
wiki40b / fa
شرح پیکربندی : مجموعه داده Wiki40B برای fa.
اندازه مجموعه داده :
482.55 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 11،262 |
'train' | 203،145 |
'validation' | 11 هزار و 180 |
- مثالها ( tfds.as_dataframe ):
wiki40b / fi
شرح پیکربندی : مجموعه داده Wiki40B برای fi.
اندازه مجموعه داده :
534.13 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 14،179 |
'train' | 255،822 |
'validation' | 13،962 |
- مثالها ( tfds.as_dataframe ):
wiki40b / he
شرح پیکربندی : مجموعه داده Wiki40B برای او.
اندازه مجموعه داده :
869.51 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 9344 |
'train' | 165،359 |
'validation' | 9،231 |
- مثالها ( tfds.as_dataframe ):
wiki40b / سلام
توضیحات پیکربندی : مجموعه داده Wiki40B برای سلام.
اندازه مجموعه داده :
277.56 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 2،643 |
'train' | 45،737 |
'validation' | 2596 |
- مثالها ( tfds.as_dataframe ):
ویکی 40b / ساعت
شرح پیکربندی : مجموعه داده Wiki40B برای ساعت.
اندازه مجموعه داده :
235.58 MiB
ذخیره خودکار ( مستندات ): بله (آزمون ، اعتبار سنجی) ، فقط وقتی
shuffle_files=False
(قطار)تقسیم :
شکاف | مثال ها |
---|---|
'test' | 5،724 |
'train' | 103،857 |
'validation' | 5،792 |
- مثالها ( tfds.as_dataframe ):
wiki40b / hu
توضیحات پیکربندی : مجموعه داده Wiki40B برای hu.
اندازه مجموعه داده :
634.25 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 15،258 |
'train' | 273،248 |
'validation' | 15208 |
- مثالها ( tfds.as_dataframe ):
wiki40b / id
شرح پیکربندی : مجموعه داده Wiki40B برای شناسه.
اندازه مجموعه داده :
334.06 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 8598 |
'train' | 156،255 |
'validation' | 8،714 |
- مثالها ( tfds.as_dataframe ):
wiki40b / lt
توضیحات پیکربندی : مجموعه داده Wiki40B برای lt.
اندازه مجموعه داده :
140.46 MiB
ذخیره خودکار ( مستندات ): بله
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 4،683 |
'train' | 84،854 |
'validation' | 4،754 |
- مثالها ( tfds.as_dataframe ):
wiki40b / lv
شرح پیکربندی : مجموعه داده Wiki40B برای lv.
اندازه مجموعه داده :
80.07 MiB
ذخیره خودکار ( مستندات ): بله
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 1،932 |
'train' | 33،064 |
'validation' | 1،857 |
- مثالها ( tfds.as_dataframe ):
wiki40b / ms
شرح پیکربندی : مجموعه داده Wiki40B برای MS.
اندازه مجموعه داده :
142.49 MiB
ذخیره خودکار ( مستندات ): بله (آزمون ، اعتبار سنجی) ، فقط وقتی
shuffle_files=False
(قطار)تقسیم :
شکاف | مثال ها |
---|---|
'test' | 5235 |
'train' | 97،509 |
'validation' | 5،357 |
- مثالها ( tfds.as_dataframe ):
wiki40b / no
شرح پیکربندی : مجموعه داده Wiki40B برای شماره.
اندازه مجموعه داده :
382.03 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 10،588 |
'train' | 190،588 |
'validation' | 10،547 |
- مثالها ( tfds.as_dataframe ):
wiki40b / ro
شرح پیکربندی : مجموعه داده Wiki40B برای ro.
اندازه مجموعه داده :
319.68 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 7،870 |
'train' | 139،615 |
'validation' | 7،624 |
- مثالها ( tfds.as_dataframe ):
wiki40b / sk
شرح پیکربندی : مجموعه داده Wiki40B برای sk.
اندازه مجموعه داده :
170.20 MiB
ذخیره خودکار ( مستندات ): بله (آزمون ، اعتبار سنجی) ، فقط وقتی
shuffle_files=False
(قطار)تقسیم :
شکاف | مثال ها |
---|---|
'test' | 5،741 |
'train' | 103،095 |
'validation' | 5604 |
- مثالها ( tfds.as_dataframe ):
wiki40b / sl
شرح پیکربندی : مجموعه داده Wiki40B برای sl.
اندازه مجموعه داده :
157.38 MiB
ذخیره خودکار ( مستندات ): بله (آزمون ، اعتبار سنجی) ، فقط وقتی
shuffle_files=False
(قطار)تقسیم :
شکاف | مثال ها |
---|---|
'test' | 3،341 |
'train' | 60،927 |
'validation' | 3،287 |
- مثالها ( tfds.as_dataframe ):
wiki40b / sr
شرح پیکربندی : مجموعه داده Wiki40B برای sr.
اندازه مجموعه داده :
582.20 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 17997 |
'train' | 327،313 |
'validation' | 18100 |
- مثالها ( tfds.as_dataframe ):
wiki40b / sv
شرح پیکربندی : مجموعه داده Wiki40B برای sv.
اندازه مجموعه داده :
613.62 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 22،291 |
'train' | 400،742 |
'validation' | 22،263 |
- مثالها ( tfds.as_dataframe ):
wiki40b / tl
شرح پیکربندی : مجموعه داده Wiki40B برای tl.
اندازه مجموعه داده :
29.04 MiB
ذخیره خودکار ( مستندات ): بله
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 1،446 |
'train' | 25940 |
'validation' | 1،472 |
- مثالها ( tfds.as_dataframe ):
wiki40b / uk
شرح پیکربندی : مجموعه داده Wiki40B برای انگلستان.
اندازه مجموعه داده :
1.67 GiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 26،581 |
'train' | 477،618 |
'validation' | 26،324 |
- مثالها ( tfds.as_dataframe ):
wiki40b / vi
شرح پیکربندی : مجموعه داده Wiki40B برای vi.
اندازه مجموعه داده :
497.70 MiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 7،942 |
'train' | 146255 |
'validation' | 8،195 |
- مثالها ( tfds.as_dataframe ):