Sintonize-se com as primeiras mulheres em ML Simpósio esta terça-feira 19 out às 9h PST Register now

para_crawl

  • Descrição:

Corpora paralela em escala da Web para idiomas europeus oficiais.

@misc {paracrawl,
    title  = "ParaCrawl",
    year   = "2018",
    url    = "http://paracrawl.eu/download.html."
}

para_crawl / enbg (configuração padrão)

  • A inscrição Config: dataset tradução de Inglês para bg.

  • Tamanho do download: 98.94 MiB

  • Dataset size: 362.46 MiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 1.039.885
  • Características:
Translation({
    'bg': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

para_crawl / encs

  • A inscrição Config: dataset tradução de Inglês para cs.

  • Tamanho do download: 187.31 MiB

  • Dataset size: 666.34 MiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 2.981.949
  • Características:
Translation({
    'cs': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

para_crawl / enda

  • A inscrição Config: dataset tradução de Inglês para da.

  • Tamanho do download: 174.34 MiB

  • Dataset size: 619.77 MiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 2.414.895
  • Características:
Translation({
    'da': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

para_crawl / ende

  • A inscrição Config: dataset tradução de Inglês para DE.

  • Tamanho do download: 1.22 GiB

  • Tamanho do conjunto de dados: 4.04 GiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 16.264.448
  • Características:
Translation({
    'de': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

para_crawl / enel

  • A inscrição Config: dataset tradução de Inglês para el.

  • Tamanho do download: 184.59 MiB

  • Dataset size: 698.75 MiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 1.985.233
  • Características:
Translation({
    'el': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

para_crawl / enes

  • A inscrição Config: dataset tradução de Inglês para es.

  • Tamanho do download: 1.82 GiB

  • Tamanho do conjunto de dados: 6.23 GiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 21.987.267
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'es': Text(shape=(), dtype=tf.string),
})

para_crawl / enet

  • A inscrição Config: dataset tradução de Inglês para et.

  • Tamanho do download: 66.91 MiB

  • Dataset size: 209.16 MiB

  • Cache-Auto ( documentação ): Somente quando shuffle_files=False (trem)

  • desdobramentos:

Dividir Exemplos
'train' 853.422
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'et': Text(shape=(), dtype=tf.string),
})

para_crawl / enfi

  • A inscrição Config: dataset tradução de Inglês para fi.

  • Tamanho do download: 151.83 MiB

  • Dataset size: 543.85 MiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 2.156.069
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'fi': Text(shape=(), dtype=tf.string),
})

para_crawl / enfr

  • A inscrição Config: dataset tradução de Inglês para fr.

  • Tamanho do download: 2.63 GiB

  • Tamanho do conjunto de dados: 9.04 GiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 31.374.161
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'fr': Text(shape=(), dtype=tf.string),
})

para_crawl / enga

  • A inscrição Config: dataset tradução de Inglês para ga.

  • Tamanho do download: 28.03 MiB

  • Dataset size: 107.09 MiB

  • Cache-Auto ( documentação ): Sim

  • desdobramentos:

Dividir Exemplos
'train' 357.399
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'ga': Text(shape=(), dtype=tf.string),
})

para_crawl / enhr

  • A inscrição Config: dataset tradução de Inglês para h.

  • Tamanho do download: 80.97 MiB

  • Dataset size: 256.37 MiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 1.002.053
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'hr': Text(shape=(), dtype=tf.string),
})

para_crawl / enhu

  • A inscrição Config: dataset tradução de Inglês para hu.

  • Tamanho do download: 114.24 MiB

  • Dataset size: 421.40 MiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 1.901.342
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'hu': Text(shape=(), dtype=tf.string),
})

para_crawl / enit

  • A inscrição Config: dataset tradução de Inglês para ele.

  • Tamanho do download: 1017.30 MiB

  • Tamanho do conjunto de dados: 3.36 GiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 12.162.239
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'it': Text(shape=(), dtype=tf.string),
})

para_crawl / enlt

  • A inscrição Config: dataset tradução de Inglês para lt.

  • Tamanho do download: 63.28 MiB

  • Dataset size: 204.70 MiB

  • Cache-Auto ( documentação ): Somente quando shuffle_files=False (trem)

  • desdobramentos:

Dividir Exemplos
'train' 844.643
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'lt': Text(shape=(), dtype=tf.string),
})

para_crawl / enlv

  • A inscrição Config: dataset tradução de Inglês para lv.

  • Tamanho do download: 45.17 MiB

  • Dataset size: 147.09 MiB

  • Cache-Auto ( documentação ): Somente quando shuffle_files=False (trem)

  • desdobramentos:

Dividir Exemplos
'train' 553.060
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'lv': Text(shape=(), dtype=tf.string),
})

para_crawl / enmt

  • A inscrição Config: dataset tradução de Inglês para mt.

  • Tamanho do download: 18.15 MiB

  • Dataset tamanho: 54.36 MiB

  • Cache-Auto ( documentação ): Sim

  • desdobramentos:

Dividir Exemplos
'train' 195.502
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'mt': Text(shape=(), dtype=tf.string),
})

para_crawl / ennl

  • A inscrição Config: dataset tradução de Inglês para nl.

  • Tamanho do download: 400.63 MiB

  • Tamanho do conjunto de dados: 1.40 GiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 5.659.268
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'nl': Text(shape=(), dtype=tf.string),
})

para_crawl / enpl

  • A inscrição Config: dataset tradução de Inglês para a PL.

  • Tamanho do download: 257.90 MiB

  • Dataset size: 885.63 MiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 3.503.276
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'pl': Text(shape=(), dtype=tf.string),
})

para_crawl / enpt

  • A inscrição Config: dataset tradução de Inglês para pt.

  • Tamanho do download: 608.62 MiB

  • Tamanho do conjunto de dados: 2.05 GiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 8.141.940
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'pt': Text(shape=(), dtype=tf.string),
})

para_crawl / enro

  • A inscrição Config: dataset tradução de Inglês para Ro.

  • Tamanho do download: 153.24 MiB

  • Dataset size: 534.34 MiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 1.952.043
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'ro': Text(shape=(), dtype=tf.string),
})

para_crawl / ensk

  • A inscrição Config: dataset tradução de Inglês para sk.

  • Tamanho do download: 96.61 MiB

  • Dataset size: 352.91 MiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 1.591.831
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'sk': Text(shape=(), dtype=tf.string),
})

para_crawl / ensl

  • A inscrição Config: dataset tradução de Inglês para sl.

  • Tamanho do download: 62.02 MiB

  • Dataset size: 187.66 MiB

  • Cache-Auto ( documentação ): Somente quando shuffle_files=False (trem)

  • desdobramentos:

Dividir Exemplos
'train' 660.161
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'sl': Text(shape=(), dtype=tf.string),
})

para_crawl / ensv

  • A inscrição Config: dataset tradução de Inglês para Sv.

  • Tamanho do download: 262.76 MiB

  • Dataset size: 905.72 MiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 3.476.729
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'sv': Text(shape=(), dtype=tf.string),
})