para_crawl

  • Descrizione :

Corpora paralleli su scala Web per le lingue ufficiali europee.

@misc {paracrawl,
    title  = "ParaCrawl",
    year   = "2018",
    url    = "http://paracrawl.eu/download.html."
}

para_crawl/enbg (configurazione predefinita)

  • Descrizione della configurazione : set di dati di traduzione dall'inglese a bg.

  • Dimensione del download : 98.94 MiB

  • Dimensione del set di dati: 362.46 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 1.039.885
  • Struttura delle caratteristiche :
Translation({
    'bg': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
bg Testo corda
it Testo corda

para_crawl/encs

  • Descrizione della configurazione : set di dati di traduzione dall'inglese a cs.

  • Dimensione del download : 187.31 MiB

  • Dimensione del set di dati: 666.34 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 2.981.949
  • Struttura delle caratteristiche :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
cs Testo corda
it Testo corda

para_crawl/enda

  • Descrizione della configurazione : set di dati di traduzione dall'inglese a da.

  • Dimensione del download : 174.34 MiB

  • Dimensione del set di dati: 619.77 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 2.414.895
  • Struttura delle caratteristiche :
Translation({
    'da': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
da Testo corda
it Testo corda

para_crawl/ende

  • Descrizione della configurazione : set di dati di traduzione dall'inglese a de.

  • Dimensione del download : 1.22 GiB

  • Dimensione del set di dati: 4.04 GiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 16.264.448
  • Struttura delle caratteristiche :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
de Testo corda
it Testo corda

para_crawl/enel

  • Descrizione della configurazione : set di dati di traduzione dall'inglese a el.

  • Dimensione del download : 184.59 MiB

  • Dimensione del set di dati: 698.75 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 1.985.233
  • Struttura delle caratteristiche :
Translation({
    'el': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
el Testo corda
it Testo corda

para_crawl/enes

  • Descrizione della configurazione : Dataset di traduzione dall'inglese all'es.

  • Dimensione del download : 1.82 GiB

  • Dimensione del set di dati: 6.23 GiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 21.987.267
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'es': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
es Testo corda

para_crawl/enet

  • Descrizione della configurazione : set di dati di traduzione dall'inglese a et.

  • Dimensione del download : 66.91 MiB

  • Dimensione del set di dati: 209.16 MiB

  • Cache automatica ( documentazione ): solo quando shuffle_files=False (treno)

  • Divisioni :

Diviso Esempi
'train' 853.422
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'et': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
et Testo corda

para_crawl/enfi

  • Descrizione della configurazione : set di dati di traduzione dall'inglese a fi.

  • Dimensione del download : 151.83 MiB

  • Dimensione del set di dati: 543.85 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 2.156.069
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
fi Testo corda

para_crawl/enfr

  • Descrizione della configurazione : set di dati di traduzione dall'inglese al fr.

  • Dimensione del download : 2.63 GiB

  • Dimensione del set di dati: 9.04 GiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 31.374.161
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'fr': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
fr Testo corda

para_crawl/enga

  • Descrizione della configurazione : set di dati di traduzione dall'inglese a ga.

  • Dimensione del download : 28.03 MiB

  • Dimensione del set di dati: 107.09 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'train' 357.399
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'ga': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
ga Testo corda

para_crawl/enhr

  • Descrizione della configurazione : set di dati di traduzione dall'inglese a hr.

  • Dimensione del download : 80.97 MiB

  • Dimensione del set di dati: 256.37 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 1.002.053
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'hr': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
ora Testo corda

para_crawl/enhu

  • Descrizione della configurazione : set di dati di traduzione dall'inglese a hu.

  • Dimensione del download : 114.24 MiB

  • Dimensione del set di dati: 421.40 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 1.901.342
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'hu': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
uh Testo corda

para_crawl/enit

  • Descrizione della configurazione : set di dati di traduzione dall'inglese ad esso.

  • Dimensione del download : 1017.30 MiB

  • Dimensione del set di dati: 3.36 GiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 12.162.239
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'it': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
esso Testo corda

para_crawl/enlt

  • Descrizione della configurazione : set di dati di traduzione dall'inglese al lt.

  • Dimensione del download : 63.28 MiB

  • Dimensione del set di dati: 204.70 MiB

  • Cache automatica ( documentazione ): solo quando shuffle_files=False (treno)

  • Divisioni :

Diviso Esempi
'train' 844.643
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'lt': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
lt Testo corda

para_crawl/enlv

  • Descrizione della configurazione : set di dati di traduzione dall'inglese al lv.

  • Dimensione del download : 45.17 MiB

  • Dimensione del set di dati: 147.09 MiB

  • Cache automatica ( documentazione ): solo quando shuffle_files=False (treno)

  • Divisioni :

Diviso Esempi
'train' 553.060
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'lv': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
liv Testo corda

para_crawl/enmt

  • Descrizione della configurazione : set di dati di traduzione dall'inglese al mt.

  • Dimensione del download : 18.15 MiB

  • Dimensione del set di dati: 54.36 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'train' 195.502
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'mt': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
mt Testo corda

para_crawl/ennl

  • Descrizione della configurazione : set di dati di traduzione dall'inglese al nl.

  • Dimensione del download : 400.63 MiB

  • Dimensione del set di dati : 1.40 GiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 5.659.268
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'nl': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
nl Testo corda

para_crawl/enpl

  • Descrizione della configurazione : set di dati di traduzione dall'inglese al pl.

  • Dimensione del download : 257.90 MiB

  • Dimensione del set di dati: 885.63 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 3.503.276
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'pl': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
pl Testo corda

para_crawl/enpt

  • Descrizione della configurazione : set di dati di traduzione dall'inglese al pt.

  • Dimensione del download : 608.62 MiB

  • Dimensione del set di dati: 2.05 GiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 8.141.940
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'pt': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
pt Testo corda

para_crawl/enro

  • Descrizione della configurazione : set di dati di traduzione dall'inglese al ro.

  • Dimensione del download : 153.24 MiB

  • Dimensione del set di dati: 534.34 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 1.952.043
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'ro': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
ro Testo corda

para_crawl/ensk

  • Descrizione della configurazione : set di dati di traduzione dall'inglese a sk.

  • Dimensione del download : 96.61 MiB

  • Dimensione del set di dati: 352.91 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 1.591.831
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'sk': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
sk Testo corda

para_crawl/ensl

  • Descrizione della configurazione : set di dati di traduzione dall'inglese a sl.

  • Dimensione del download : 62.02 MiB

  • Dimensione del set di dati: 187.66 MiB

  • Cache automatica ( documentazione ): solo quando shuffle_files=False (treno)

  • Divisioni :

Diviso Esempi
'train' 660,161
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'sl': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
sl Testo corda

para_crawl/ensv

  • Descrizione della configurazione : set di dati di traduzione dall'inglese allo sv.

  • Dimensione del download : 262.76 MiB

  • Dimensione del set di dati: 905.72 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 3.476.729
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'sv': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
sv Testo corda