RSVP для вашего местного мероприятия TensorFlow Everywhere сегодня!
Эта страница переведена с помощью Cloud Translation API.
Switch to English

wmt15_translate

  • Описание :

Перевести набор данных на основе данных statmt.org.

Версии существуют для разных лет с использованием комбинации нескольких источников данных. Базовый wmt_translate позволяет вам создать свою собственную конфигурацию, чтобы выбрать собственную пару данных / языка, создав собственный tfds.translate.wmt.WmtConfig .

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
  • Домашняя страница : http://www.statmt.org/wmt15/translation-task.html

  • Исходный код :tfds.translate.Wmt15Translate

  • Версии :

    • 1.0.0 (по умолчанию): без примечаний к выпуску.
  • Размер набора данных : Unknown size

  • Инструкции по загрузке вручную : для этого набора данных необходимо вручную загрузить исходные данные в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Некоторые из приведенных здесь конфигураций wmt требуют ручной загрузки. Загляните в wmt.py, чтобы узнать точный путь (и имя файла), который необходимо загрузить.

  • Автоматическое кэширование ( документация ): неизвестно

  • Цитата :

@InProceedings{bojar-EtAl:2015:WMT,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Haddow, Barry  and  Huck, Matthias  and  Hokamp, Chris  and  Koehn, Philipp  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Post, Matt  and  Scarton, Carolina  and  Specia, Lucia  and  Turchi, Marco},
  title     = {Findings of the 2015 Workshop on Statistical Machine Translation},
  booktitle = {Proceedings of the Tenth Workshop on Statistical Machine Translation},
  month     = {September},
  year      = {2015},
  address   = {Lisbon, Portugal},
  publisher = {Association for Computational Linguistics},
  pages     = {1--46},
  url       = {http://aclweb.org/anthology/W15-3001}
}

wmt15_translate / cs-en (конфигурация по умолчанию)

  • Описание конфигурации : набор данных задачи перевода WMT 2015 cs-en.

  • Размер загружаемого файла : 1.62 GiB

  • Сплит :

Трещина Примеры
'test' 2 656
'train' 15,793,126
'validation' 3 003
  • Особенности :
Translation({
    'cs': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

wmt15_translate / de-en

  • Описание конфигурации : набор данных задачи преобразования WMT 2015.

  • Размер загружаемого файла : 1.62 GiB

  • Сплит :

Трещина Примеры
'test' 2 169
'train' 4,522,998
'validation' 3 003
  • Особенности :
Translation({
    'de': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

wmt15_translate / fi-en

  • Описание конфигурации : набор данных задачи перевода WMT 2015 fi-en.

  • Размер загрузки : 260.51 MiB

  • Сплит :

Трещина Примеры
'test' 1,370
'train' 2 073 394
'validation' 1,500
  • Особенности :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'fi': Text(shape=(), dtype=tf.string),
})

wmt15_translate / fr-en

  • Описание конфигурации : набор данных задачи перевода WMT 2015 fr-en.

  • Размер загружаемого 6.24 GiB : 6.24 GiB

  • Сплит :

Трещина Примеры
'test' 1,500
'train' 40 853 298
'validation' 4 503
  • Особенности :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'fr': Text(shape=(), dtype=tf.string),
})

wmt15_translate / ru-en

  • Описание конфигурации : набор данных задачи перевода WMT 2015 ru-en.

  • Размер загружаемого файла : 1.02 GiB

  • Сплит :

Трещина Примеры
'test' 2 818
'train' 2,495,081
'validation' 3 003
  • Особенности :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'ru': Text(shape=(), dtype=tf.string),
})