O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

flores

  • Descrição:

Conjuntos de dados de avaliação para tradução automática de poucos recursos: inglês nepalês e inglês cingalês.

@misc{guzmn2019new,
    title={Two New Evaluation Datasets for Low-Resource Machine Translation: Nepali-English and Sinhala-English},
    author={Francisco Guzman and Peng-Jen Chen and Myle Ott and Juan Pino and Guillaume Lample and Philipp Koehn and Vishrav Chaudhary and Marc'Aurelio Ranzato},
    year={2019},
    eprint={1902.01382},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

flores / neen (configuração padrão)

  • A inscrição Config: dataset A tradução de ne para en.

  • Dataset tamanho: 1.89 MiB

  • desdobramentos:

Dividir Exemplos
'test' 2.835
'validation' 2.559
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'ne': Text(shape=(), dtype=tf.string),
})

flores / sien

  • A inscrição Config: dataset A tradução de si para en.

  • Dataset size: 2.05 MiB

  • desdobramentos:

Dividir Exemplos
'test' 2.766
'validation' 2.898
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'si': Text(shape=(), dtype=tf.string),
})