wmt17_translate

  • 説明:

statmt.org のデータに基づいてデータセットを翻訳します。

複数のデータ ソースの組み合わせを使用して、さまざまな年のバージョンが存在します。ベースwmt_translateを使用すると、カスタムtfds.translate.wmt.WmtConfigを作成することにより、独自の構成を作成して独自のデータ/言語のペアを選択できます。

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
  • ホームページ: http://www.statmt.org/wmt17/translation-task.html

  • ソースコード: tfds.translate.Wmt17Translate

  • バージョン:

    • 1.0.0 (デフォルト): リリース ノートはありません。
  • 手動ダウンロードの手順: このデータセットでは、ソース データを手動でdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ) にダウンロードする必要があります。
    ここにある wmt 構成の一部は、手動でダウンロードする必要があります。ダウンロードする必要がある正確なパス (およびファイル名) を確認するには、wmt.py を調べてください。

  • ( tfds.show_examples ): サポートされていません。

  • 引用

@InProceedings{bojar-EtAl:2017:WMT1,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Graham, Yvette  and  Haddow, Barry  and  Huang, Shujian  and  Huck, Matthias  and  Koehn, Philipp  and  Liu, Qun  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Post, Matt  and  Rubino, Raphael  and  Specia, Lucia  and  Turchi, Marco},
  title     = {Findings of the 2017 Conference on Machine Translation (WMT17)},
  booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
  month     = {September},
  year      = {2017},
  address   = {Copenhagen, Denmark},
  publisher = {Association for Computational Linguistics},
  pages     = {169--214},
  url       = {http://www.aclweb.org/anthology/W17-4717}
}

wmt17_translate/cs-en (デフォルト設定)

  • 構成の説明: WMT 2017 cs-en 翻訳タスク データセット。

  • ダウンロードサイズ: 1.66 GiB

  • データセットサイズ: 2.91 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'test' 3,005
'train' 15,851,649
'validation' 2,999
  • 機能構造:
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
cs文章ストリング
ja文章ストリング

wmt17_translate/de-en

  • 構成の説明: WMT 2017 de-en 翻訳タスク データセット。

  • ダウンロードサイズ: 1.81 GiB

  • データセットサイズ: 1.73 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'test' 3,004
'train' 5,906,184
'validation' 2,999
  • 機能構造:
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
文章ストリング
ja文章ストリング

wmt17_translate/fi-ja

  • 構成の説明: WMT 2017 fi-en 翻訳タスク データセット。

  • ダウンロードサイズ: 414.10 MiB

  • データセットのサイズ: 769.87 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'test' 6,004
'train' 2,656,542
'validation' 6,000
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
フィ文章ストリング

wmt17_translate/lv-ja

  • 構成の説明: WMT 2017 lv-en 翻訳タスク データセット。

  • ダウンロードサイズ: 161.69 MiB

  • データセットサイズ: 562.26 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'test' 2,001
'train' 3,567,528
'validation' 2,003
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'lv': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
LV文章ストリング

wmt17_translate/ru-ja

  • 構成の説明: WMT 2017 ru-en 翻訳タスク データセット。

  • ダウンロードサイズ: 1.06 GiB

  • データセットサイズ: 11.18 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'test' 3,001
'train' 25,782,720
'validation' 2,998
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'ru': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
文章ストリング

wmt17_translate/tr-ja

  • 構成の説明: WMT 2017 tr-en 翻訳タスク データセット。

  • ダウンロードサイズ: 59.32 MiB

  • データセットのサイズ: 63.74 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 3,007
'train' 205,756
'validation' 3,000
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'tr': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
トレ文章ストリング

wmt17_translate/zh-en

  • 構成の説明: WMT 2017 zh-en 翻訳タスク データセット。

  • ダウンロードサイズ: 884.32 MiB

  • データセットサイズ: 6.43 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'test' 2,001
'train' 25,136,609
'validation' 2,002
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'zh': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
zh文章ストリング