opus

  • 説明:

OPUS は Web から翻訳されたテキストのコレクションです。

独自の構成を作成して、ロードするデータと言語のペアを選択します。

config = tfds.translate.opus.OpusConfig(
    version=tfds.core.Version('0.1.0'),
    language_pair=("de", "en"),
    subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
文章ストリング
ja文章ストリング
@inproceedings{Tiedemann2012ParallelData,
  author = {Tiedemann, J},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {LREC}
  year = {2012} }

opus/medical (デフォルト設定)

  • 構成の説明: 医療文書

  • ダウンロードサイズ: 34.29 MiB

  • データセットサイズ: 188.85 MiB

  • 自動キャッシュ(ドキュメント): shuffle_files=Falseの場合のみ (トレーニング)

  • スプリット:

スプリット
'train' 1,108,752

作品/法律

  • 構成の説明: 法律文書

  • ダウンロードサイズ: 46.99 MiB

  • データセットのサイズ: 214.44 MiB

  • 自動キャッシュ(ドキュメント): shuffle_files=Falseの場合のみ (トレーニング)

  • スプリット:

スプリット
'train' 719,372

オーパス/コーラン

  • 構成の説明: コーラン文書

  • ダウンロードサイズ: 35.42 MiB

  • データセットのサイズ: 117.54 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'train' 537,128

作品/IT

  • 構成の説明: IT ドキュメント

  • ダウンロードサイズ: 10.33 MiB

  • データセットサイズ: 42.51 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'train' 347,817

作品/字幕

  • 構成の説明: 字幕ドキュメント

  • ダウンロードサイズ: 677.64 MiB

  • データセットサイズ: 2.01 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 22,512,639