امروز برای رویداد محلی TensorFlow خود در همه جا پاسخ دهید!
این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

c4

  • توضیحات :

نسخه عظیم و تمیز شده مجموعه خزنده وب مشترک Crawl.

براساس مجموعه داده های خزنده مشترک: https://commoncrawl.org

برای تولید این مجموعه داده ، لطفاً دستورالعمل های t5 را دنبال کنید.

با توجه به هزینه بالای تمیز کردن مجموعه داده ، توصیه می شود آن را با یک سرویس توزیع شده مانند Cloud Dataflow آماده کنید. اطلاعات بیشتر در https://www.tensorflow.org/datasets/beam_datasets

  • صفحه اصلی : https://github.com/google-research/text-to-text-transfer-transformer#datasets

  • کد منبع : tfds.text.C4

  • نسخه ها :

    • 2.2.0 : بدون یادداشت انتشار.
    • 2.2.1 : بدون یادداشت انتشار.
    • 2.3.0 : بدون یادداشت انتشار.
    • 2.3.1 : بدون یادداشت انتشار.
    • 3.0.1 (پیش فرض): بدون یادداشت انتشار.
  • دستورالعمل های بارگیری دستی : برای این مجموعه داده لازم است که داده های منبع را به صورت دستی در download_config.manual_dir (به طور پیش فرض ~/tensorflow_datasets/downloads/manual/ ):
    شما از پیکربندی C4 استفاده می کنید که نیاز به بارگیری دستی برخی از پرونده ها است. برای c4/webtextlike ، OpenWebText.zip را از https://mega.nz/#F!EZZD0YwJ!9_PlEQzdMVLaNdKv_ICNVQ بارگیری کنید

  • ذخیره خودکار ( مستندات ): خیر

  • ویژگی ها :

FeaturesDict({
    'content-length': Text(shape=(), dtype=tf.string),
    'content-type': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'timestamp': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
  • کلیدهای تحت نظارت (به as_supervised سند نظارت شده مراجعه کنید): None

  • نقل قول :

@article{2019t5,
  author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
  title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
  journal = {arXiv e-prints},
  year = {2019},
  archivePrefix = {arXiv},
  eprint = {1910.10683},
}

c4 / en (پیکربندی پیش فرض)

  • شرح پیکربندی : مجموعه داده انگلیسی C4.

  • اندازه بارگیری : 12.28 MiB

  • اندازه مجموعه داده : 806.92 GiB

  • تقسیم :

شکاف مثال ها
'train' 364،868،901
'validation' 364608

c4 / en.noclean

  • توضیحات پیکربندی : همه تمیز کردن ها (تکثیر ، حذف بر اساس کلمات بد و غیره) را غیرفعال می کند

  • اندازه بارگیری : 12.25 MiB

  • اندازه مجموعه داده : 6.21 TiB

  • تقسیم :

شکاف مثال ها
'train' 1،063،805،324
'validation' 1،065،029

c4 / realnewslike

  • شرح پیکربندی : فیلترها از پیکربندی پیش فرض فقط شامل محتوای دامنه های مورد استفاده در مجموعه داده "RealNews" هستند (Zellers et al.، 2019).

  • اندازه بارگیری : 12.41 MiB

  • اندازه مجموعه داده : 36.89 GiB

  • تقسیم :

شکاف مثال ها
'train' 13،799،838
'validation' 13،863

c4 / webtextlike

  • توضیحات پیکربندی : فیلترها از پیکربندی پیش فرض فقط شامل محتوای URL ها در OpenWebText ( https://github.com/jcpeterson/openwebtext ) هستند.

  • اندازه بارگیری : 14.12 MiB

  • اندازه مجموعه داده : 18.00 GiB

  • تقسیم :

شکاف مثال ها
'train' 4،500،788
'validation' 4،493

c4 / چند زبانه

  • توضیحات پیکربندی : چند زبانه C4 (mC4) دارای 101 زبان است و از 71 تخلیه متداول خزنده تولید می شود.

  • حجم دانلود : 22.74 MiB

  • اندازه مجموعه داده : 26.76 TiB

  • تقسیم :

شکاف مثال ها
'af' 2،152،243
'af-validation' 2،118
'am' 162.870
'am-validation' 155
'ar' 53،256،040
'ar-validation' 52،978
'az' 5،285،720
'az-validation' 5239
'be' 1،742،030
'be-validation' 1،712
'bg' 23،409،799
'bg-Latn' 162،461
'bg-Latn-validation' 144
'bg-validation' 23،503
'bn' 7،444،098
'bn-validation' 7،415
'ca' 14،492،899
'ca-validation' 14،489
'ceb' 351،894
'ceb-validation' 367
'co' 494،913
'co-validation' 565
'cs' 60،149،680
'cs-validation' 60،462
'cy' 4،131،915
'cy-validation' 4،103
'da' 28،777،331
'da-validation' 28،945
'de' 397،006،993
'de-validation' 398،583
'el' 41،753،736
'el-Latn' 449943
'el-Latn-validation' 468
'el-validation' 42،358
'en' 3،079،081،989
'en-validation' 3،083،850
'eo' 500،048
'eo-validation' 496
'es' 416،057،992
'es-validation' 416،256
'et' 6،941،360
'et-validation' 6،848
'eu' 1،555،887
'eu-validation' 1،580
'fa' 53،927،287
'fa-validation' 53،685
'fi' 26،842،650
'fi-validation' 26،710
'fil' 2،102،197
'fil-validation' 2،158
'fr' 332،674،575
'fr-validation' 331،328
'fy' 1،104،359
'fy-validation' 1094
'ga' 465،670
'ga-validation' 490
'gd' 322404
'gd-validation' 338
'gl' 4،549،465
'gl-validation' 4631
'gu' 631،600
'gu-validation' 651
'ha' 247،479
'ha-validation' 258
'haw' 84312
'haw-validation' 86
'hi' 18،507،273
'hi-Latn' 626154
'hi-Latn-validation' 638
'hi-validation' 18،392
'hmn' 295،549
'hmn-validation' 312
'ht' 269،174
'ht-validation' 281
'hu' 36،819،508
'hu-validation' 36،756
'hy' 2،401،949
'hy-validation' 2410
'id' 69،625،551
'id-validation' 69،739
'ig' 92909
'ig-validation' 87
'is' 2،069،293
'is-validation' 2065
'it' 186.404.508
'it-validation' 186،030
'iw' 12،334،609
'iw-validation' 12،207
'ja' 87،337،884
'ja-Latn' 533،516
'ja-Latn-validation' 506
'ja-validation' 87420
'jv' 581،528
'jv-validation' 609
'ka' 2،295،551
'ka-validation' 2،279
'kk' 2،392،401
'kk-validation' 2400
'km' 756.612
'km-validation' 745
'kn' 1،056،849
'kn-validation' 1039
'ko' 15،602،947
'ko-validation' 15،771
'ku' 298،389
'ku-validation' 298
'ky' 995،539
'ky-validation' 976
'la' 1،674،463
'la-validation' 1654
'lb' 2،740،336
'lb-validation' 2692
'lo' 141،776
'lo-validation' 145
'lt' 11،274،295
'lt-validation' 11،245
'lv' 6،414،223
'lv-validation' 6،598
'mg' 345،040
'mg-validation' 367
'mi' 101،169
'mi-validation' 106
'mk' 2،058،417
'mk-validation' 2،054
'ml' 2،044،981
'ml-validation' 2،002
'mn' 2،054،674
'mn-validation' 2090
'mr' 7،774،331
'mr-validation' 7،928
'ms' 13،180،647
'ms-validation' 13،391
'mt' 2،261،303
'mt-validation' 2،322
'my' 813،530
'my-validation' 858
'ne' 2،942،785
'ne-validation' 2،951
'nl' 96،210،458
'nl-validation' 96،637
'no' 25،402،139
'no-validation' 25،766
'ny' 174،696
'ny-validation' 162
'pa' 363،399
'pa-validation' 346
'pl' 126،164،277
'pl-validation' 125،997
'ps' 335452
'ps-validation' 318
'pt' 169،239،084
'pt-validation' 169،417
'ro' 45،738،857
'ro-validation' 45،512
'ru' 755،585،265
'ru-Latn' 745،491
'ru-Latn-validation' 753
'ru-validation' 756،418
'sd' 743،057
'sd-validation' 774
'si' 534،759
'si-validation' 509
'sk' 17،729،698
'sk-validation' 17،865
'sl' 8،499،456
'sl-validation' 8،504
'sm' 98،467
'sm-validation' 108
'sn' 326.392
'sn-validation' 306
'so' 893،012
'so-validation' 888
'sq' 4،113،147
'sq-validation' 4،086
'sr' 3،398،483
'sr-validation' 3،443
'st' 66837
'st-validation' 88
'su' 280،719
'su-validation' 269
'sv' 48،570،979
'sv-validation' 48،633
'sw' 985654
'sw-validation' 994
'ta' 3،514،561
'ta-validation' 3،510
'te' 1،188،243
'te-validation' 1،211
'tg' 1،280،757
'tg-validation' 1،259
'th' 15،463،131
'th-validation' 15344
'tr' 87،595،290
'tr-validation' 87،596
'uk' 38،556،465
'uk-validation' 38،550
'und' 1،866،266،695
'und-validation' 1،867،450
'ur' 1،950،124
'ur-validation' 1885
'uz' 796،416
'uz-validation' 847
'vi' 78،587،159
'vi-validation' 78،611
'xh' 69،048
'xh-validation' 62
'yi' 143708
'yi-validation' 161
'yo' 46،214
'yo-validation' 42
'zh' 54،542،308
'zh-Latn' 373،664
'zh-Latn-validation' 387
'zh-validation' 54656
'zu' 555،458
'zu-validation' 548