Эта страница была переведа с помощью Cloud Translation API.
Switch to English

wmt17_translate

  • Описание :

Перевести набор данных на основе данных statmt.org.

Версии существуют для разных лет с использованием комбинации нескольких источников данных. Базовый wmt_translate позволяет вам создать свою собственную конфигурацию, чтобы выбрать свою собственную пару данных / языка, создав собственный tfds.translate.wmt.WmtConfig .

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
  • Домашняя страница : http://www.statmt.org/wmt17/translation-task.html

  • Исходный код : tfds.translate.Wmt17Translate

  • Версии :

    • 1.0.0 (по умолчанию): без примечаний к выпуску.
  • Размер набора данных : Unknown size

  • Инструкции по загрузке вручную : для этого набора данных необходимо вручную загрузить исходные данные в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Некоторые из приведенных здесь конфигураций wmt требуют ручной загрузки. Загляните в wmt.py, чтобы узнать точный путь (и имя файла), который необходимо загрузить.

  • Автоматическое кэширование ( документация ): неизвестно

  • Цитата :

@InProceedings{bojar-EtAl:2017:WMT1,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Graham, Yvette  and  Haddow, Barry  and  Huang, Shujian  and  Huck, Matthias  and  Koehn, Philipp  and  Liu, Qun  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Post, Matt  and  Rubino, Raphael  and  Specia, Lucia  and  Turchi, Marco},
  title     = {Findings of the 2017 Conference on Machine Translation (WMT17)},
  booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
  month     = {September},
  year      = {2017},
  address   = {Copenhagen, Denmark},
  publisher = {Association for Computational Linguistics},
  pages     = {169--214},
  url       = {http://www.aclweb.org/anthology/W17-4717}
}

wmt17_translate / cs-en (конфигурация по умолчанию)

  • Описание конфигурации : набор данных задачи перевода WMT 2017 cs-en.

  • Размер загружаемого файла : 1.66 GiB

  • Сплит :

Трещина Примеры
'test' 3 005
'train' 15 851 649
'validation' 2 999
  • Особенности :
Translation({
    'cs': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

wmt17_translate / de-en

  • Описание конфигурации : набор данных задачи де-en-перевода WMT 2017.

  • Размер загружаемого файла : 1.81 GiB

  • Сплит :

Трещина Примеры
'test' 3 004
'train' 5 906 184
'validation' 2 999
  • Особенности :
Translation({
    'de': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

wmt17_translate / fi-en

  • Описание конфигурации : набор данных задачи перевода WMT 2017 fi-en.

  • Размер загрузки : 414.10 MiB

  • Сплит :

Трещина Примеры
'test' 6 004
'train' 2 656 542
'validation' 6000
  • Особенности :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'fi': Text(shape=(), dtype=tf.string),
})

wmt17_translate / lv-en

  • Описание конфигурации : набор данных задачи перевода WMT 2017 lv-en.

  • Размер загрузки : 161.69 MiB

  • Сплит :

Трещина Примеры
'test' 2 001
'train' 3,567,528
'validation' 2 003
  • Особенности :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'lv': Text(shape=(), dtype=tf.string),
})

wmt17_translate / ru-en

  • Описание конфигурации : набор данных задачи перевода WMT 2017 ru-en.

  • Размер загружаемого 3.34 GiB : 3.34 GiB

  • Сплит :

Трещина Примеры
'test' 3 001
'train' 25 782 720
'validation' 2 998
  • Особенности :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'ru': Text(shape=(), dtype=tf.string),
})

wmt17_translate / tr-en

  • Описание конфигурации : набор данных задачи перевода WMT 2017 tr-en.

  • Размер загрузки : 59.32 MiB

  • Сплит :

Трещина Примеры
'test' 3 007
'train' 205 756
'validation' 3 000
  • Особенности :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'tr': Text(shape=(), dtype=tf.string),
})

wmt17_translate / zh-en

  • Описание конфигурации : набор данных задачи перевода WMT 2017 zh-en.

  • Размер загружаемого файла : 2.16 GiB

  • Сплит :

Трещина Примеры
'test' 2 001
'train' 25 136 609
'validation' 2 002
  • Особенности :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'zh': Text(shape=(), dtype=tf.string),
})