- Описание :
Перевести набор данных на основе данных statmt.org.
Версии существуют для разных лет с использованием комбинации нескольких источников данных. Базовый wmt_translate
позволяет вам создать свою собственную конфигурацию, чтобы выбрать собственную пару данных / языка, создав собственный tfds.translate.wmt.WmtConfig
.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Домашняя страница : http://www.statmt.org/wmt17/translation-task.html
Исходный код :
tfds.translate.Wmt17Translate
Версии :
-
1.0.0
(по умолчанию): без примечаний к выпуску.
-
Размер набора данных :
Unknown size
Инструкции по загрузке вручную : для этого набора данных необходимо вручную загрузить исходные данные в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
Некоторые из приведенных здесь конфигураций wmt требуют ручной загрузки. Загляните в wmt.py, чтобы узнать точный путь (и имя файла), который необходимо загрузить.Автоматическое кэширование ( документация ): неизвестно
Цитата :
@InProceedings{bojar-EtAl:2017:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huang, Shujian and Huck, Matthias and Koehn, Philipp and Liu, Qun and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Rubino, Raphael and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2017 Conference on Machine Translation (WMT17)},
booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
month = {September},
year = {2017},
address = {Copenhagen, Denmark},
publisher = {Association for Computational Linguistics},
pages = {169--214},
url = {http://www.aclweb.org/anthology/W17-4717}
}
- Рисунок ( tfds.show_examples ): не поддерживается.
wmt17_translate / cs-en (конфигурация по умолчанию)
Описание конфигурации : набор данных задачи перевода WMT 2017 cs-en.
Размер загружаемого файла :
1.66 GiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 3 005 |
'train' | 15 851 649 |
'validation' | 2 999 |
- Особенности :
Translation({
'cs': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см.
as_supervised
doc ):('cs', 'en')
Примеры ( tfds.as_dataframe ):
wmt17_translate / de-en
Описание конфигурации : набор данных задачи де-en-перевода WMT 2017.
Размер загружаемого файла :
1.81 GiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 3 004 |
'train' | 5 906 184 |
'validation' | 2 999 |
- Особенности :
Translation({
'de': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см.
as_supervised
doc ):('de', 'en')
Примеры ( tfds.as_dataframe ):
wmt17_translate / fi-en
Описание конфигурации : набор данных задачи перевода WMT 2017 fi-en.
Размер загрузки :
414.10 MiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 6 004 |
'train' | 2 656 542 |
'validation' | 6000 |
- Особенности :
Translation({
'en': Text(shape=(), dtype=tf.string),
'fi': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см.
as_supervised
doc ):('fi', 'en')
Примеры ( tfds.as_dataframe ):
wmt17_translate / lv-en
Описание конфигурации : набор данных задачи перевода WMT 2017 lv-en.
Размер загрузки :
161.69 MiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 2 001 |
'train' | 3,567,528 |
'validation' | 2 003 |
- Особенности :
Translation({
'en': Text(shape=(), dtype=tf.string),
'lv': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см.
as_supervised
):('lv', 'en')
Примеры ( tfds.as_dataframe ):
wmt17_translate / ru-en
Описание конфигурации : набор данных задачи перевода WMT 2017 ru-en.
Размер загружаемого
3.34 GiB
:3.34 GiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 3 001 |
'train' | 25 782 720 |
'validation' | 2 998 |
- Особенности :
Translation({
'en': Text(shape=(), dtype=tf.string),
'ru': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см.
as_supervised
doc ):('ru', 'en')
Примеры ( tfds.as_dataframe ):
wmt17_translate / tr-en
Описание конфигурации : набор данных задачи перевода WMT 2017 tr-en.
Размер загрузки :
59.32 MiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 3 007 |
'train' | 205 756 |
'validation' | 3 000 |
- Особенности :
Translation({
'en': Text(shape=(), dtype=tf.string),
'tr': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см.
as_supervised
doc ):('tr', 'en')
Примеры ( tfds.as_dataframe ):
wmt17_translate / zh-en
Описание конфигурации : набор данных задачи перевода WMT 2017 zh-en.
Размер загружаемого файла :
2.16 GiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 2 001 |
'train' | 25 136 609 |
'validation' | 2 002 |
- Особенности :
Translation({
'en': Text(shape=(), dtype=tf.string),
'zh': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см.
as_supervised
doc ):('zh', 'en')
Примеры ( tfds.as_dataframe ):