لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

ج 4

  • الوصف :

إصدار هائل ومنظف من مجموعة زحف الويب الخاصة بـ Common Crawl.

استنادًا إلى مجموعة بيانات الزحف الشائعة: https://commoncrawl.org

لإنشاء مجموعة البيانات هذه ، يرجى اتباع التعليمات من t5 .

نظرًا للجهد المبذول في تنظيف مجموعة البيانات ، يوصى بإعدادها بخدمة موزعة مثل Cloud Dataflow. مزيد من المعلومات على https://www.tensorflow.org/datasets/beam_datasets

  • الصفحة الرئيسية : https://github.com/google-research/text-to-text-transfer-transformer#datasets

  • كود المصدر : tfds.text.C4

  • إصدارات :

    • 2.2.0 : لا توجد ملاحظات إصدار.
    • 2.2.1 : لا توجد ملاحظات إصدار.
    • 2.3.0 : لا توجد ملاحظات الإصدار.
    • 2.3.1 : لا توجد ملاحظات الإصدار.
    • 3.0.1 (افتراضي): لا توجد ملاحظات حول الإصدار.
  • إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ ):
    أنت تستخدم تهيئة C4 تتطلب تنزيل بعض الملفات يدويًا. بالنسبة إلى c4/webtextlike ، قم بتنزيل OpenWebText.zip من https://mega.nz/#F!EZZD0YwJ!9_PlEQzdMVLaNdKv_ICNVQ

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الميزات :

FeaturesDict({
    'content-length': Text(shape=(), dtype=tf.string),
    'content-type': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'timestamp': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
0bc741f90

c4 / en (التكوين الافتراضي)

  • وصف التكوين : مجموعة بيانات باللغة الإنجليزية C4.

  • حجم التحميل : 12.28 MiB

  • حجم مجموعة البيانات : 806.92 GiB

  • الانقسامات :

انشق، مزق أمثلة
'train' 364868901
'validation' 364608

c4 / en.noclean

  • وصف التكوين : تعطيل جميع عمليات التنظيف (إزالة البيانات المكررة ، والإزالة بناءً على الكلمات السيئة ، وما إلى ذلك)

  • حجم التحميل : 12.25 MiB

  • حجم مجموعة البيانات : 6.21 TiB

  • الانقسامات :

انشق، مزق أمثلة
'train' 1،063،805،324
'validation' 1،065،029

c4 / realnewslike

  • وصف التكوين : عوامل التصفية من التكوين الافتراضي لتضمين فقط المحتوى من المجالات المستخدمة في مجموعة بيانات "RealNews" (Zellers et al.، 2019).

  • حجم التحميل : 12.41 MiB

  • حجم مجموعة البيانات : 36.89 GiB

  • الانقسامات :

انشق، مزق أمثلة
'train' 13799838
'validation' 13863

c4 / webtextlike

  • وصف التكوين : مرشحات من التكوين الافتراضي لتضمين فقط المحتوى من عناوين URL في OpenWebText ( https://github.com/jcpeterson/openwebtext ).

  • حجم التحميل : 14.12 MiB

  • حجم مجموعة البيانات : 18.00 GiB

  • الانقسامات :

انشق، مزق أمثلة
'train' 4500788
'validation' 4،493

c4 / متعدد اللغات

  • وصف التكوين : متعدد اللغات C4 (mC4) به 101 لغة ويتم إنشاؤه من 71 مقالب الزحف الشائعة.

  • حجم التحميل : 22.74 MiB

  • حجم مجموعة البيانات : 26.76 TiB

  • الانقسامات :

انشق، مزق أمثلة
'af' 2،152،243
'af-validation' 2،118
'am' 162.870
'am-validation' 155
'ar' 53256040
'ar-validation' 52978
'az' 5285720
'az-validation' 5239
'be' 1،742،030
'be-validation' 1،712
'bg' 23409799
'bg-Latn' 162461
'bg-Latn-validation' 144
'bg-validation' 23503
'bn' 7،444،098
'bn-validation' 7،415
'ca' 14،492،899
'ca-validation' 14،489
'ceb' 351894
'ceb-validation' 367
'co' 494913
'co-validation' 565
'cs' 60149680
'cs-validation' 60462
'cy' 4،131،915
'cy-validation' 4،103
'da' 28777331
'da-validation' 28945
'de' 397،006،993
'de-validation' 398،583
'el' 41،753،736
'el-Latn' 449،943
'el-Latn-validation' 468
'el-validation' 42358
'en' 3،079،081،989
'en-validation' 3،083،850
'eo' 500،048
'eo-validation' 496
'es' 416،057،992
'es-validation' 416256
'et' 6،941،360
'et-validation' 6848
'eu' 1،555،887
'eu-validation' 1،580
'fa' 53927287
'fa-validation' 53685
'fi' 26842.650
'fi-validation' 26710
'fil' 2،102،197
'fil-validation' 2،158
'fr' 332،674،575
'fr-validation' 331328
'fy' 1،104،359
'fy-validation' 1،094
'ga' 465670
'ga-validation' 490
'gd' 322404
'gd-validation' 338
'gl' 4،549،465
'gl-validation' 4631
'gu' 631600
'gu-validation' 651
'ha' 247479
'ha-validation' 258
'haw' 84312
'haw-validation' 86
'hi' 18507273
'hi-Latn' 626154
'hi-Latn-validation' 638
'hi-validation' 18392
'hmn' 295.549
'hmn-validation' 312
'ht' 269174
'ht-validation' 281
'hu' 36819508
'hu-validation' 36756
'hy' 2،401،949
'hy-validation' 2410
'id' 69،625،551
'id-validation' 69.739
'ig' 92909
'ig-validation' 87
'is' 2،069،293
'is-validation' 2،065
'it' 186404508
'it-validation' 186.030
'iw' 12334609
'iw-validation' 12207
'ja' 87337884
'ja-Latn' 533.516
'ja-Latn-validation' 506
'ja-validation' 87420
'jv' 581.528
'jv-validation' 609
'ka' 2،295،551
'ka-validation' 2،279
'kk' 2،392،401
'kk-validation' 2400
'km' 75612
'km-validation' 745
'kn' 1،056،849
'kn-validation' 1،039
'ko' 15602947
'ko-validation' 15771
'ku' 298،389
'ku-validation' 298
'ky' 995.539
'ky-validation' 976
'la' 1،674،463
'la-validation' 1،654
'lb' 2،740،336
'lb-validation' 2692
'lo' 141،776
'lo-validation' 145
'lt' 11274295
'lt-validation' 11245
'lv' 6414223
'lv-validation' 6598
'mg' 345،040
'mg-validation' 367
'mi' 101،169
'mi-validation' 106
'mk' 2058417
'mk-validation' 2،054
'ml' 2،044،981
'ml-validation' 2،002
'mn' 2،054،674
'mn-validation' 2090
'mr' 7774331
'mr-validation' 7928
'ms' 13،180،647
'ms-validation' 13391
'mt' 2،261،303
'mt-validation' 2،322
'my' 813530
'my-validation' 858
'ne' 2،942،785
'ne-validation' 2951
'nl' 96.210.458
'nl-validation' 96637
'no' 25402139
'no-validation' 25766
'ny' 174.696
'ny-validation' 162
'pa' 36399
'pa-validation' 346
'pl' 126،164،277
'pl-validation' 125997
'ps' 335452
'ps-validation' 318
'pt' 169.239.084
'pt-validation' 169.417
'ro' 45738857
'ro-validation' 45512
'ru' 755.585.265
'ru-Latn' 745491
'ru-Latn-validation' 753
'ru-validation' 756418
'sd' 743،057
'sd-validation' 774
'si' 534،759
'si-validation' 509
'sk' 17،729،698
'sk-validation' 17،865
'sl' 8499456
'sl-validation' 8504
'sm' 98467
'sm-validation' 108
'sn' 326392
'sn-validation' 306
'so' 893،012
'so-validation' 888
'sq' 4،113،147
'sq-validation' 4086
'sr' 3،398،483
'sr-validation' 3،443
'st' 66837
'st-validation' 88
'su' 280719
'su-validation' 269
'sv' 48،570،979
'sv-validation' 48،633
'sw' 985654
'sw-validation' 994
'ta' 3،514،561
'ta-validation' 3،510
'te' 1،188،243
'te-validation' 1،211
'tg' 1،280،757
'tg-validation' 1،259
'th' 15463131
'th-validation' 15،344
'tr' 87.595.290
'tr-validation' 87596
'uk' 38،556،465
'uk-validation' 38550
'und' 1،866،266،695
'und-validation' 1،867،450
'ur' 1،950،124
'ur-validation' 1،885
'uz' 796416
'uz-validation' 847
'vi' 78.587159
'vi-validation' 78،611
'xh' 69.048
'xh-validation' 62
'yi' 143708
'yi-validation' 161
'yo' 46214
'yo-validation' 42
'zh' 54542308
'zh-Latn' 373664
'zh-Latn-validation' 387
'zh-validation' 54656
'zu' 555458
'zu-validation' 548