¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

ted_hrlr_translate

  • Descripción:

Conjuntos de datos derivados de las transcripciones de charlas TED para comparar pares de idiomas similares donde uno es de alto recurso y el otro de bajo recurso.

@inproceedings{Ye2018WordEmbeddings,
  author  = {Ye, Qi and Devendra, Sachan and Matthieu, Felix and Sarguna, Padmanabhan and Graham, Neubig},
  title   = {When and Why are pre-trained word embeddings useful for Neural Machine Translation},
  booktitle = {HLT-NAACL},
  year    = {2018},
  }

ted_hrlr_translate / az_to_en (configuración predeterminada)

  • Descripción config: conjunto de datos traducción del az de baño en texto plano.

  • Fraccionamientos:

Separar Ejemplos de
'test' 903
'train' 5.946
'validation' 671
  • características:
Translation({
    'az': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

ted_hrlr_translate / aztr_to_en

  • Descripción config: conjunto de datos traducción del az_tr que es en texto plano.

  • Fraccionamientos:

Separar Ejemplos de
'test' 903
'train' 188,396
'validation' 671
  • características:
Translation({
    'az_tr': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

ted_hrlr_translate / be_to_en

  • Descripción config: conjunto de datos de traducción desde be a es en texto plano.

  • Fraccionamientos:

Separar Ejemplos de
'test' 664
'train' 4.509
'validation' 248
  • características:
Translation({
    'be': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

ted_hrlr_translate / beru_to_en

  • Descripción config: conjunto de datos traducción del be_ru que es en texto plano.

  • Fraccionamientos:

Separar Ejemplos de
'test' 664
'train' 212,614
'validation' 248
  • características:
Translation({
    'be_ru': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

ted_hrlr_translate / es_to_pt

  • Descripción config: La traducción del conjunto de datos es a PT en texto plano.

  • Fraccionamientos:

Separar Ejemplos de
'test' 1,763
'train' 44,938
'validation' 1.016
  • características:
Translation({
    'es': Text(shape=(), dtype=tf.string),
    'pt': Text(shape=(), dtype=tf.string),
})

ted_hrlr_translate / fr_to_pt

  • Descripción config: conjunto de datos traducción del fr de pt en texto plano.

  • Fraccionamientos:

Separar Ejemplos de
'test' 1,494
'train' 43,873
'validation' 1,131
  • características:
Translation({
    'fr': Text(shape=(), dtype=tf.string),
    'pt': Text(shape=(), dtype=tf.string),
})

ted_hrlr_translate / gl_to_en

  • Descripción config: conjunto de datos traducción del gl de baño en texto plano.

  • Fraccionamientos:

Separar Ejemplos de
'test' 1.007
'train' 10.017
'validation' 682
  • características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'gl': Text(shape=(), dtype=tf.string),
})

ted_hrlr_translate / glpt_to_en

  • Descripción config: conjunto de datos traducción del gl_pt que es en texto plano.

  • Fraccionamientos:

Separar Ejemplos de
'test' 1.007
'train' 61,802
'validation' 682
  • características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'gl_pt': Text(shape=(), dtype=tf.string),
})

ted_hrlr_translate / he_to_pt

  • Descripción config: conjunto de datos traducción del que a PT en texto plano.

  • Fraccionamientos:

Separar Ejemplos de
'test' 1,623
'train' 48,511
'validation' 1,145
  • características:
Translation({
    'he': Text(shape=(), dtype=tf.string),
    'pt': Text(shape=(), dtype=tf.string),
})

ted_hrlr_translate / it_to_pt

  • Descripción config: La traducción del conjunto de datos que a PT en texto plano.

  • Fraccionamientos:

Separar Ejemplos de
'test' 1,669
'train' 46,259
'validation' 1,162
  • características:
Translation({
    'it': Text(shape=(), dtype=tf.string),
    'pt': Text(shape=(), dtype=tf.string),
})

ted_hrlr_translate / pt_to_en

  • Descripción config: conjunto de datos traducción del PT a es en texto plano.

  • Fraccionamientos:

Separar Ejemplos de
'test' 1.803
'train' 51,785
'validation' 1,193
  • características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'pt': Text(shape=(), dtype=tf.string),
})

ted_hrlr_translate / ru_to_en

  • Descripción config: conjunto de datos traducción del ru de baño en texto plano.

  • Fraccionamientos:

Separar Ejemplos de
'test' 5.476
'train' 208,106
'validation' 4.805
  • características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'ru': Text(shape=(), dtype=tf.string),
})

ted_hrlr_translate / ru_to_pt

  • Descripción config: conjunto de datos traducción del ru de Pt en texto plano.

  • Fraccionamientos:

Separar Ejemplos de
'test' 1,588
'train' 47.278
'validation' 1,184
  • características:
Translation({
    'pt': Text(shape=(), dtype=tf.string),
    'ru': Text(shape=(), dtype=tf.string),
})

ted_hrlr_translate / tr_to_en

  • Descripción config: conjunto de datos traducción del tr de baño en texto plano.

  • Fraccionamientos:

Separar Ejemplos de
'test' 5,029
'train' 182,450
'validation' 4.045
  • características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'tr': Text(shape=(), dtype=tf.string),
})