フローレス

  • 説明:

低リソースの機械翻訳の評価データセット: ネパール語-英語およびシンハラ語-英語。

@misc{guzmn2019new,
    title={Two New Evaluation Datasets for Low-Resource Machine Translation: Nepali-English and Sinhala-English},
    author={Francisco Guzman and Peng-Jen Chen and Myle Ott and Juan Pino and Guillaume Lample and Philipp Koehn and Vishrav Chaudhary and Marc'Aurelio Ranzato},
    year={2019},
    eprint={1902.01382},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

flores/neen (デフォルト設定)

  • 構成の説明: ne から en への翻訳データセット。

  • データセットサイズ: 1.89 MiB

  • スプリット:

スプリット
'test' 2,835
'validation' 2,559
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'ne': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
ねえ文章ストリング

フローレス/シエン

  • 構成の説明: si から en への翻訳データセット。

  • データセットサイズ: 2.05 MiB

  • スプリット:

スプリット
'test' 2,766
'validation' 2,898
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'si': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
文章ストリング