- Описание :
Колоссальная, очищенная версия корпуса веб-сканирования Common Crawl.
На основе набора данных Common Crawl: https://commoncrawl.org
Чтобы создать этот набор данных, следуйте инструкциям из t5 .
Из-за накладных расходов на очистку набора данных рекомендуется подготовить его с помощью распределенной службы, такой как Cloud Dataflow. Больше информации на https://www.tensorflow.org/datasets/beam_datasets
Домашняя страница : https://github.com/google-research/text-to-text-transfer-transformer#datasets
Исходный код :
tfds.text.C4
Версии :
-
2.2.0
: Нет примечаний к выпуску. -
2.2.1
: Нет примечаний к выпуску. -
2.3.0
: Нет примечаний к выпуску. -
2.3.1
: Нет примечаний к выпуску. -
3.0.1
(по умолчанию): без примечаний к выпуску.
-
Инструкции по загрузке вручную : для этого набора данных необходимо вручную загрузить исходные данные в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
Вы используете конфигурацию C4, которая требует ручной загрузки некоторых файлов. Дляc4/webtextlike
загрузите OpenWebText.zip с https://mega.nz/#F!EZZD0YwJ!9_PlEQzdMVLaNdKv_ICNVQАвтоматическое кэширование ( документация ): Нет
Особенности :
FeaturesDict({
'content-length': Text(shape=(), dtype=tf.string),
'content-type': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
'timestamp': Text(shape=(), dtype=tf.string),
'url': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см.
as_supervised
doc ):None
Цитата :
@article{2019t5,
author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
journal = {arXiv e-prints},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.10683},
}
- Рисунок ( tfds.show_examples ): не поддерживается.
c4 / en (конфигурация по умолчанию)
Описание конфигурации : Английский набор данных C4.
Размер загрузки :
12.28 MiB
Размер набора данных :
806.92 GiB
Сплит :
Трещина | Примеры |
---|---|
'train' | 364 868 901 |
'validation' | 364 608 |
- Примеры ( tfds.as_dataframe ):
c4 / en.noclean
Описание конфигурации : отключает всю очистку (дедупликацию, удаление на основе нецензурных слов и т. Д.)
Размер загрузки :
12.25 MiB
Размер набора данных :
6.21 TiB
Сплит :
Трещина | Примеры |
---|---|
'train' | 1 063 805 324 |
'validation' | 1 065 029 |
- Примеры ( tfds.as_dataframe ):
c4 / realnewslike
Описание конфигурации : фильтры из конфигурации по умолчанию, чтобы включать только контент из доменов, используемых в наборе данных RealNews (Zellers et al., 2019).
Размер загрузки :
12.41 MiB
Размер набора данных :
36.89 GiB
Сплит :
Трещина | Примеры |
---|---|
'train' | 13 799 838 |
'validation' | 13 863 |
- Примеры ( tfds.as_dataframe ):
c4 / webtextlike
Описание конфигурации : фильтры из конфигурации по умолчанию, чтобы включать только контент из URL-адресов в OpenWebText ( https://github.com/jcpeterson/openwebtext ).
Размер загрузки :
14.12 MiB
Размер набора данных :
18.00 GiB
Сплит :
Трещина | Примеры |
---|---|
'train' | 4,500,788 |
'validation' | 4 493 |
- Примеры ( tfds.as_dataframe ):
c4 / многоязычный
Описание конфигурации : Многоязычный C4 (mC4) имеет 101 язык и генерируется из 71 дампа Common Crawl.
Размер загрузки :
22.74 MiB
Размер набора данных :
26.76 TiB
Сплит :
Трещина | Примеры |
---|---|
'af' | 2 152 243 |
'af-validation' | 2118 |
'am' | 162 870 |
'am-validation' | 155 |
'ar' | 53 256 040 |
'ar-validation' | 52 978 |
'az' | 5 285 720 |
'az-validation' | 5 239 |
'be' | 1,742,030 |
'be-validation' | 1,712 |
'bg' | 23 409 799 |
'bg-Latn' | 162 461 |
'bg-Latn-validation' | 144 |
'bg-validation' | 23 503 |
'bn' | 7 444 098 |
'bn-validation' | 7 415 |
'ca' | 14 492 899 |
'ca-validation' | 14 489 |
'ceb' | 351 894 |
'ceb-validation' | 367 |
'co' | 494 913 |
'co-validation' | 565 |
'cs' | 60 149 680 |
'cs-validation' | 60 462 |
'cy' | 4 131 915 |
'cy-validation' | 4,103 |
'da' | 28 777 331 |
'da-validation' | 28 945 |
'de' | 397 006 993 |
'de-validation' | 398 583 |
'el' | 41 753 736 |
'el-Latn' | 449 943 |
'el-Latn-validation' | 468 |
'el-validation' | 42 358 |
'en' | 3 079 081 989 |
'en-validation' | 3 083 850 |
'eo' | 500 048 |
'eo-validation' | 496 |
'es' | 416 057 992 |
'es-validation' | 416 256 |
'et' | 6 941 360 |
'et-validation' | 6 848 |
'eu' | 1,555,887 |
'eu-validation' | 1,580 |
'fa' | 53 927 287 |
'fa-validation' | 53 685 |
'fi' | 26 842 650 |
'fi-validation' | 26 710 |
'fil' | 2 102 197 |
'fil-validation' | 2 158 |
'fr' | 332 674 575 |
'fr-validation' | 331 328 |
'fy' | 1 104 359 |
'fy-validation' | 1,094 |
'ga' | 465 670 |
'ga-validation' | 490 |
'gd' | 322 404 |
'gd-validation' | 338 |
'gl' | 4,549,465 |
'gl-validation' | 4631 |
'gu' | 631 600 |
'gu-validation' | 651 |
'ha' | 247 479 |
'ha-validation' | 258 |
'haw' | 84 312 |
'haw-validation' | 86 |
'hi' | 18 507 273 |
'hi-Latn' | 626 154 |
'hi-Latn-validation' | 638 |
'hi-validation' | 18 392 |
'hmn' | 295 549 |
'hmn-validation' | 312 |
'ht' | 269 174 |
'ht-validation' | 281 |
'hu' | 36 819 508 |
'hu-validation' | 36 756 |
'hy' | 2,401,949 |
'hy-validation' | 2,410 |
'id' | 69 625 551 |
'id-validation' | 69 739 |
'ig' | 92 909 |
'ig-validation' | 87 |
'is' | 2 069 293 |
'is-validation' | 2,065 |
'it' | 186 404 508 |
'it-validation' | 186 030 |
'iw' | 12 334 609 |
'iw-validation' | 12 207 |
'ja' | 87 337 884 |
'ja-Latn' | 533 516 |
'ja-Latn-validation' | 506 |
'ja-validation' | 87 420 |
'jv' | 581 528 |
'jv-validation' | 609 |
'ka' | 2,295,551 |
'ka-validation' | 2,279 |
'kk' | 2 392 401 |
'kk-validation' | 2400 |
'km' | 756 612 |
'km-validation' | 745 |
'kn' | 1 056 849 |
'kn-validation' | 1,039 |
'ko' | 15 602 947 |
'ko-validation' | 15,771 |
'ku' | 298 389 |
'ku-validation' | 298 |
'ky' | 995 539 |
'ky-validation' | 976 |
'la' | 1,674,463 |
'la-validation' | 1,654 |
'lb' | 2 740 336 |
'lb-validation' | 2 692 |
'lo' | 141 776 |
'lo-validation' | 145 |
'lt' | 11 274 295 |
'lt-validation' | 11 245 |
'lv' | 6 414 223 |
'lv-validation' | 6 598 |
'mg' | 345 040 |
'mg-validation' | 367 |
'mi' | 101 169 |
'mi-validation' | 106 |
'mk' | 2,058,417 |
'mk-validation' | 2,054 |
'ml' | 2 044 981 |
'ml-validation' | 2 002 |
'mn' | 2 054 674 |
'mn-validation' | 2,090 |
'mr' | 7,774,331 |
'mr-validation' | 7 928 |
'ms' | 13 180 647 |
'ms-validation' | 13 391 |
'mt' | 2,261,303 |
'mt-validation' | 2,322 |
'my' | 813 530 |
'my-validation' | 858 |
'ne' | 2 942 785 |
'ne-validation' | 2 951 |
'nl' | 96 210 458 |
'nl-validation' | 96 637 |
'no' | 25 402 139 |
'no-validation' | 25 766 |
'ny' | 174 696 |
'ny-validation' | 162 |
'pa' | 363 399 |
'pa-validation' | 346 |
'pl' | 126 164 277 |
'pl-validation' | 125 997 |
'ps' | 335 452 |
'ps-validation' | 318 |
'pt' | 169 239 084 |
'pt-validation' | 169 417 |
'ro' | 45 738 857 |
'ro-validation' | 45 512 |
'ru' | 755 585 265 |
'ru-Latn' | 745 491 |
'ru-Latn-validation' | 753 |
'ru-validation' | 756 418 |
'sd' | 743 057 |
'sd-validation' | 774 |
'si' | 534 759 |
'si-validation' | 509 |
'sk' | 17 729 698 |
'sk-validation' | 17 865 |
'sl' | 8 499 456 |
'sl-validation' | 8 504 |
'sm' | 98 467 |
'sm-validation' | 108 |
'sn' | 326 392 |
'sn-validation' | 306 |
'so' | 893 012 |
'so-validation' | 888 |
'sq' | 4 113 147 |
'sq-validation' | 4 086 |
'sr' | 3 398 483 |
'sr-validation' | 3443 |
'st' | 66 837 |
'st-validation' | 88 |
'su' | 280 719 |
'su-validation' | 269 |
'sv' | 48 570 979 |
'sv-validation' | 48 633 |
'sw' | 985 654 |
'sw-validation' | 994 |
'ta' | 3 514 561 |
'ta-validation' | 3,510 |
'te' | 1,188,243 |
'te-validation' | 1,211 |
'tg' | 1,280,757 |
'tg-validation' | 1,259 |
'th' | 15 463 131 |
'th-validation' | 15 344 |
'tr' | 87 595 290 |
'tr-validation' | 87 596 |
'uk' | 38 556 465 |
'uk-validation' | 38 550 |
'und' | 1 866 266 695 |
'und-validation' | 1,867,450 |
'ur' | 1 950 124 |
'ur-validation' | 1885 |
'uz' | 796 416 |
'uz-validation' | 847 |
'vi' | 78 587 159 |
'vi-validation' | 78 611 |
'xh' | 69 048 |
'xh-validation' | 62 |
'yi' | 143 708 |
'yi-validation' | 161 |
'yo' | 46 214 |
'yo-validation' | 42 |
'zh' | 54 542 308 |
'zh-Latn' | 373 664 |
'zh-Latn-validation' | 387 |
'zh-validation' | 54 656 |
'zu' | 555 458 |
'zu-validation' | 548 |
- Примеры ( tfds.as_dataframe ):