एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

फ्लोरेस

  • विवरण:

कम संसाधन वाले मशीनी अनुवाद के लिए मूल्यांकन डेटासेट: नेपाली-अंग्रेज़ी और सिंहल-अंग्रेज़ी।

@misc{guzmn2019new,
    title={Two New Evaluation Datasets for Low-Resource Machine Translation: Nepali-English and Sinhala-English},
    author={Francisco Guzman and Peng-Jen Chen and Myle Ott and Juan Pino and Guillaume Lample and Philipp Koehn and Vishrav Chaudhary and Marc'Aurelio Ranzato},
    year={2019},
    eprint={1902.01382},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

flores/neen (डिफ़ॉल्ट कॉन्फ़िग)

  • कॉन्फ़िग विवरण: एन को ne से अनुवाद डाटासेट।

  • डेटासेट का आकार: 1.89 MiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 2,835
'validation' २,५५९
  • विशेषताएं:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'ne': Text(shape=(), dtype=tf.string),
})

फ्लोरेस / सिएन

  • कॉन्फ़िग विवरण: एन करने के लिए सी से अनुवाद डाटासेट।

  • डेटासेट का आकार: 2.05 MiB

  • विभाजन:

विभाजित करना उदाहरण
'test' २,७६६
'validation' 2,898
  • विशेषताएं:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'si': Text(shape=(), dtype=tf.string),
})