الفقرة_crawl

  • الوصف :

Corpora الموازي على نطاق الويب للغات الأوروبية الرسمية.

@misc {paracrawl,
    title  = "ParaCrawl",
    year   = "2018",
    url    = "http://paracrawl.eu/download.html."
}

para_crawl / enbg (التكوين الافتراضي)

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى bg.

  • حجم التحميل : 98.94 MiB

  • حجم مجموعة البيانات : 362.46 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 1،039،885
  • هيكل الميزة :
Translation({
    'bg': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
bg نص سلسلة
en نص سلسلة

para_crawl / encs

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى cs.

  • حجم التحميل : 187.31 MiB

  • حجم مجموعة البيانات : 666.34 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 2،981،949
  • هيكل الميزة :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
CS نص سلسلة
en نص سلسلة

الفقرة_crawl / النهاية

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى da.

  • حجم التحميل : 174.34 MiB

  • حجم مجموعة البيانات : 619.77 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 2،414،895
  • هيكل الميزة :
Translation({
    'da': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
دا نص سلسلة
en نص سلسلة

الفقرة_crawl / نهاية

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى de.

  • حجم التحميل : 1.22 GiB

  • حجم مجموعة البيانات : 4.04 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 1626448
  • هيكل الميزة :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
دي نص سلسلة
en نص سلسلة

الفقرة_crawl / enel

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى el.

  • حجم التحميل : 184.59 MiB

  • حجم مجموعة البيانات : 698.75 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 1،985،233
  • هيكل الميزة :
Translation({
    'el': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
el نص سلسلة
en نص سلسلة

para_crawl / enes

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى الإنجليزية.

  • حجم التحميل : 1.82 GiB

  • حجم مجموعة البيانات : 6.23 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 21987267
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'es': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
إس نص سلسلة

para_crawl / enet

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى et.

  • حجم التحميل : 66.91 MiB

  • حجم مجموعة البيانات : 209.16 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'train' 853،422
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'et': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
وآخرون نص سلسلة

para_crawl / enfi

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى fi.

  • حجم التحميل : 151.83 MiB

  • حجم مجموعة البيانات : 543.85 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 2،156،069
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
فاي نص سلسلة

الفقرة_crawl / enfr

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى الفرنسية.

  • حجم التحميل : ٢ ٫ 2.63 GiB

  • حجم مجموعة البيانات : 9.04 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 31374161
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'fr': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
الاب نص سلسلة

para_crawl / enga

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى ga.

  • حجم التحميل : 28.03 MiB

  • حجم مجموعة البيانات : 107.09 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 357.399
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'ga': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
الجا نص سلسلة

الفقرة_crawl / enhr

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى hr.

  • حجم التحميل : 80.97 MiB

  • حجم مجموعة البيانات : 256.37 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 1،002،053
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'hr': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
ساعة نص سلسلة

الفقرة_crawl / enhu

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى hu.

  • حجم التحميل : 114.24 MiB

  • حجم مجموعة البيانات : 421.40 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 1،901،342
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'hu': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
هو نص سلسلة

para_crawl / enit

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إليها.

  • حجم التحميل : 1017.30 MiB

  • حجم مجموعة البيانات : 3.36 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 12162239
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'it': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
هو - هي نص سلسلة

الفقرة_crawl / enlt

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى الملازم الأول.

  • حجم التحميل : 63.28 MiB

  • حجم مجموعة البيانات : 204.70 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'train' 844643
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'lt': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
لتر نص سلسلة

الفقرة_crawl / enlv

  • وصف التكوين : مجموعة بيانات الترجمة من اللغة الإنجليزية إلى المستوى.

  • حجم التحميل : 45.17 MiB

  • حجم مجموعة البيانات : 147.09 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'train' 553،060
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'lv': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
lv نص سلسلة

para_crawl / enmt

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى طن متري.

  • حجم التحميل : 18.15 MiB

  • حجم مجموعة البيانات : 54.36 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 195502
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'mt': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
طن متري نص سلسلة

الفقرة_crawl / ennl

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى nl.

  • حجم التحميل : 400.63 MiB

  • حجم مجموعة البيانات : 1.40 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 5،659،268
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'nl': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
nl نص سلسلة

الفقرة_crawl / enpl

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى pl.

  • حجم التحميل : 257.90 MiB

  • حجم مجموعة البيانات : 885.63 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 3،503،276
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'pl': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
رر نص سلسلة

para_crawl / enpt

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى pt.

  • حجم التحميل : 608.62 MiB

  • حجم مجموعة البيانات : 2.05 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 8141940
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'pt': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
نقطة نص سلسلة

para_crawl / enro

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى ريال عماني.

  • حجم التحميل : 153.24 MiB

  • حجم مجموعة البيانات : 534.34 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 1،952،043
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'ro': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
ريال عماني نص سلسلة

para_crawl / انسك

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى sk.

  • حجم التحميل : 96.61 MiB

  • حجم مجموعة البيانات : 352.91 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 1،591،831
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'sk': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
كورونا نص سلسلة

para_crawl / ensl

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى sl.

  • حجم التحميل : 62.02 MiB

  • حجم مجموعة البيانات : 187.66 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'train' 660161
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'sl': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
sl نص سلسلة

الفقرة_crawl / snv

  • وصف التكوين : مجموعة بيانات الترجمة من الإنجليزية إلى sv.

  • حجم التحميل : 262.76 MiB

  • حجم مجموعة البيانات : 905.72 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 3،476،729
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'sv': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
سيفيرت نص سلسلة