para_crawl

  • 説明

公式ヨーロッパ言語用のWebスケール並列コーパス。

@misc {paracrawl,
    title  = "ParaCrawl",
    year   = "2018",
    url    = "http://paracrawl.eu/download.html."
}

para_crawl / enbg(デフォルト設定)

  • コンフィグの説明:BGへ英語からの翻訳データセット。

  • ダウンロードサイズ98.94 MiB

  • データセットのサイズ362.46 MiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 1,039,885
  • 特長
Translation({
    'bg': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

para_crawl / encs

  • コンフィグの説明:CSへ英語からの翻訳データセット。

  • ダウンロードサイズ187.31 MiB

  • データセットのサイズ666.34 MiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 2,981,949
  • 特長
Translation({
    'cs': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

para_crawl / enda

  • コンフィグの説明:ダへ英語からの翻訳データセット。

  • ダウンロードサイズ174.34 MiB

  • データセットのサイズ619.77 MiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 2,414,895
  • 特長
Translation({
    'da': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

para_crawl / ende

  • コンフィグの説明:デ英語からの翻訳データセット。

  • ダウンロードサイズ1.22 GiB

  • データセットサイズ4.04 GiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 16,264,448
  • 特長
Translation({
    'de': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

para_crawl / enel

  • コンフィグの説明:ELに英語からの翻訳データセット。

  • ダウンロードサイズ184.59 MiB

  • データセットのサイズ698.75 MiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 1,985,233
  • 特長
Translation({
    'el': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

para_crawl / enes

  • コンフィグの説明:ESへの英語からの翻訳データセット。

  • ダウンロードサイズ1.82 GiB

  • データセットサイズ6.23 GiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 21,987,267
  • 特長
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'es': Text(shape=(), dtype=tf.string),
})

para_crawl / enet

  • コンフィグの説明:らに英語からの翻訳データセット。

  • ダウンロードサイズ66.91 MiB

  • データセットのサイズ209.16 MiB

  • オートキャッシュされたドキュメント):時のみshuffle_files=False (電車)

  • スプリット

スプリット
'train' 853,422
  • 特長
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'et': Text(shape=(), dtype=tf.string),
})

para_crawl / enfi

  • コンフィグの説明:Fiの英語からの翻訳データセット。

  • ダウンロードサイズ151.83 MiB

  • データセットのサイズ543.85 MiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 2,156,069
  • 特長
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'fi': Text(shape=(), dtype=tf.string),
})

para_crawl / enfr

  • コンフィグの説明:FRへ英語からの翻訳データセット。

  • ダウンロードサイズ2.63 GiB

  • データセットサイズ9.04 GiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 31,374,161
  • 特長
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'fr': Text(shape=(), dtype=tf.string),
})

para_crawl / enga

  • コンフィグの説明:GAに英語からの翻訳データセット。

  • ダウンロードサイズ28.03 MiB

  • データセットのサイズ107.09 MiB

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'train' 357,399
  • 特長
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'ga': Text(shape=(), dtype=tf.string),
})

para_crawl / enhr

  • コンフィグの説明:時間に英語からの翻訳データセット。

  • ダウンロードサイズ80.97 MiB

  • データセットのサイズ256.37 MiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 1,002,053
  • 特長
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'hr': Text(shape=(), dtype=tf.string),
})

para_crawl / enhu

  • コンフィグの説明:HUへ英語からの翻訳データセット。

  • ダウンロードサイズ114.24 MiB

  • データセットのサイズ421.40 MiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 1,901,342
  • 特長
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'hu': Text(shape=(), dtype=tf.string),
})

para_crawl / enit

  • コンフィグの説明:それまで英語からの翻訳データセット。

  • ダウンロードサイズ1017.30 MiB

  • データセットサイズ3.36 GiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 12,162,239
  • 特長
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'it': Text(shape=(), dtype=tf.string),
})

para_crawl / enlt

  • コンフィグの説明:LTへ英語からの翻訳データセット。

  • ダウンロードサイズ63.28 MiB

  • データセットのサイズ204.70 MiB

  • オートキャッシュされたドキュメント):時のみshuffle_files=False (電車)

  • スプリット

スプリット
'train' 844,643
  • 特長
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'lt': Text(shape=(), dtype=tf.string),
})

para_crawl / enlv

  • コンフィグの説明:LVへ英語からの翻訳データセット。

  • ダウンロードサイズ45.17 MiB

  • データセットのサイズ147.09 MiB

  • オートキャッシュされたドキュメント):時のみshuffle_files=False (電車)

  • スプリット

スプリット
'train' 553,060
  • 特長
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'lv': Text(shape=(), dtype=tf.string),
})

para_crawl / enmt

  • コンフィグの説明:MTに対する英語からの翻訳データセット。

  • ダウンロードサイズ18.15 MiB

  • データセットサイズ54.36 MiB

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'train' 195,502
  • 特長
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'mt': Text(shape=(), dtype=tf.string),
})

para_crawl / ennl

  • コンフィグの説明:NLへ英語からの翻訳データセット。

  • ダウンロードサイズ400.63 MiB

  • データセットサイズ1.40 GiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 5,659,268
  • 特長
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'nl': Text(shape=(), dtype=tf.string),
})

para_crawl / enpl

  • コンフィグの説明:PLに英語からの翻訳データセット。

  • ダウンロードサイズ257.90 MiB

  • データセットのサイズ885.63 MiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 3,503,276
  • 特長
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'pl': Text(shape=(), dtype=tf.string),
})

para_crawl / enpt

  • コンフィグの説明:Ptに英語からの翻訳データセット。

  • ダウンロードサイズ608.62 MiB

  • データセットサイズ2.05 GiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 8,141,940
  • 特長
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'pt': Text(shape=(), dtype=tf.string),
})

para_crawl / enro

  • コンフィグの説明:ROへ英語からの翻訳データセット。

  • ダウンロードサイズ153.24 MiB

  • データセットのサイズ534.34 MiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 1,952,043
  • 特長
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'ro': Text(shape=(), dtype=tf.string),
})

para_crawl / ensk

  • コンフィグの説明:SKへ英語からの翻訳データセット。

  • ダウンロードサイズ96.61 MiB

  • データセットのサイズ352.91 MiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 1,591,831
  • 特長
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'sk': Text(shape=(), dtype=tf.string),
})

para_crawl / ensl

  • コンフィグの説明:SLに英語からの翻訳データセット。

  • ダウンロードサイズ62.02 MiB

  • データセットのサイズ187.66 MiB

  • オートキャッシュされたドキュメント):時のみshuffle_files=False (電車)

  • スプリット

スプリット
'train' 660,161
  • 特長
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'sl': Text(shape=(), dtype=tf.string),
})

para_crawl / ensv

  • コンフィグの説明:SVに英語からの翻訳データセット。

  • ダウンロードサイズ262.76 MiB

  • データセットのサイズ905.72 MiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 3,476,729
  • 特長
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'sv': Text(shape=(), dtype=tf.string),
})