Эта страница была переведа с помощью Cloud Translation API.
Switch to English

wmt15_translate

  • Описание :

Перевести набор данных на основе данных statmt.org.

Версии существуют для разных лет с использованием комбинации нескольких источников данных. Базовый wmt_translate позволяет вам создать свою собственную конфигурацию, чтобы выбрать собственную пару данных / языка, создав собственный tfds.translate.wmt.WmtConfig .

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
  • Домашняя страница : http://www.statmt.org/wmt15/translation-task.html

  • Исходный код : tfds.translate.Wmt15Translate

  • Версии :

    • 1.0.0 (по умолчанию): без примечаний к выпуску.
  • Размер набора данных : Unknown size

  • Инструкции по загрузке вручную : для этого набора данных необходимо вручную загрузить исходные данные в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Некоторые из приведенных здесь конфигураций wmt требуют ручной загрузки. Загляните в wmt.py, чтобы узнать точный путь (и имя файла), который необходимо загрузить.

  • Автоматическое кэширование ( документация ): неизвестно

  • Цитата :

@InProceedings{bojar-EtAl:2015:WMT,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Haddow, Barry  and  Huck, Matthias  and  Hokamp, Chris  and  Koehn, Philipp  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Post, Matt  and  Scarton, Carolina  and  Specia, Lucia  and  Turchi, Marco},
  title     = {Findings of the 2015 Workshop on Statistical Machine Translation},
  booktitle = {Proceedings of the Tenth Workshop on Statistical Machine Translation},
  month     = {September},
  year      = {2015},
  address   = {Lisbon, Portugal},
  publisher = {Association for Computational Linguistics},
  pages     = {1--46},
  url       = {http://aclweb.org/anthology/W15-3001}
}

wmt15_translate / cs-en (конфигурация по умолчанию)

  • Описание конфигурации : набор данных задачи перевода WMT 2015 cs-en.

  • Размер загружаемого файла : 1.62 GiB

  • Сплит :

Трещина Примеры
'test' 2 656
'train' 15,793,126
'validation' 3 003
  • Особенности :
Translation({
    'cs': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

wmt15_translate / de-en

  • Описание конфигурации : набор данных задачи де-en-перевода WMT 2015.

  • Размер загружаемого файла : 1.62 GiB

  • Сплит :

Трещина Примеры
'test' 2 169
'train' 4,522,998
'validation' 3 003
  • Особенности :
Translation({
    'de': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

wmt15_translate / fi-en

  • Описание конфигурации : набор данных задачи перевода WMT 2015 fi-en.

  • Размер загрузки : 260.51 MiB

  • Сплит :

Трещина Примеры
'test' 1,370
'train' 2 073 394
'validation' 1,500
  • Особенности :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'fi': Text(shape=(), dtype=tf.string),
})

wmt15_translate / fr-en

  • Описание конфигурации : набор данных задачи перевода WMT 2015 fr-en.

  • Размер загружаемого 6.24 GiB : 6.24 GiB

  • Сплит :

Трещина Примеры
'test' 1,500
'train' 40 853 298
'validation' 4 503
  • Особенности :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'fr': Text(shape=(), dtype=tf.string),
})

wmt15_translate / ru-en

  • Описание конфигурации : набор данных задачи перевода WMT 2015 ru-en.

  • Размер загружаемого файла : 1.02 GiB

  • Сплит :

Трещина Примеры
'test' 2 818
'train' 2,495,081
'validation' 3 003
  • Особенности :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'ru': Text(shape=(), dtype=tf.string),
})

wmt15_translate / cs-en.subwords8k

  • Описание конфигурации : набор данных задачи перевода WMT 2015 cs-en с кодировкой подслов.

  • Размер загружаемого файла : 1.62 GiB

  • Сплит :

Трещина Примеры
'test' 2 656
'train' 15,793,126
'validation' 3 003
  • Особенности :
Translation({
    'cs': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8245>),
    'en': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8198>),
})

wmt15_translate / de-en.subwords8k

  • Описание конфигурации : набор данных задачи перевода WMT 2015 с подсловной кодировкой.

  • Размер загружаемого файла : 1.62 GiB

  • Сплит :

Трещина Примеры
'test' 2 169
'train' 4,522,998
'validation' 3 003
  • Особенности :
Translation({
    'de': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8270>),
    'en': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8212>),
})

wmt15_translate / fi-en.subwords8k

  • Описание конфигурации : набор данных задачи перевода WMT 2015 fi-en с подсловной кодировкой.

  • Размер загрузки : 260.51 MiB

  • Сплит :

Трещина Примеры
'test' 1,370
'train' 2,073,394
'validation' 1,500
  • Особенности :
Translation({
    'en': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8217>),
    'fi': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8113>),
})

wmt15_translate / fr-en.subwords8k

  • Описание конфигурации : набор данных задачи перевода WMT 2015 fr-en с кодировкой подслов.

  • Размер загружаемого 6.24 GiB : 6.24 GiB

  • Сплит :

Трещина Примеры
'test' 1,500
'train' 40 853 298
'validation' 4 503
  • Особенности :
Translation({
    'en': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8183>),
    'fr': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8133>),
})

wmt15_translate / ru-en.subwords8k

  • Описание конфигурации : набор данных задачи перевода WMT 2015 ru-en с подсловной кодировкой.

  • Размер загружаемого файла : 1.02 GiB

  • Сплит :

Трещина Примеры
'test' 2 818
'train' 2,495,081
'validation' 3 003
  • Особенности :
Translation({
    'en': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8194>),
    'ru': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8180>),
})