- Описание :
Перевести набор данных на основе данных statmt.org.
Версии существуют для разных лет с использованием комбинации нескольких источников данных. Базовый wmt_translate
позволяет вам создать свою собственную конфигурацию, чтобы выбрать собственную пару данных / языка, создав собственный tfds.translate.wmt.WmtConfig
.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Домашняя страница : http://www.statmt.org/wmt15/translation-task.html
Исходный код :
tfds.translate.Wmt15Translate
Версии :
-
1.0.0
(по умолчанию): без примечаний к выпуску.
-
Размер набора данных :
Unknown size
Инструкции по загрузке вручную : для этого набора данных необходимо вручную загрузить исходные данные в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
Некоторые из приведенных здесь конфигураций wmt требуют ручной загрузки. Загляните в wmt.py, чтобы узнать точный путь (и имя файла), который необходимо загрузить.Автоматическое кэширование ( документация ): неизвестно
Цитата :
@InProceedings{bojar-EtAl:2015:WMT,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Haddow, Barry and Huck, Matthias and Hokamp, Chris and Koehn, Philipp and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Scarton, Carolina and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2015 Workshop on Statistical Machine Translation},
booktitle = {Proceedings of the Tenth Workshop on Statistical Machine Translation},
month = {September},
year = {2015},
address = {Lisbon, Portugal},
publisher = {Association for Computational Linguistics},
pages = {1--46},
url = {http://aclweb.org/anthology/W15-3001}
}
- Рисунок ( tfds.show_examples ): не поддерживается.
wmt15_translate / cs-en (конфигурация по умолчанию)
Описание конфигурации : набор данных задачи перевода WMT 2015 cs-en.
Размер загружаемого файла :
1.62 GiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 2 656 |
'train' | 15,793,126 |
'validation' | 3 003 |
- Особенности :
Translation({
'cs': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см.
as_supervised
doc ):('cs', 'en')
Примеры ( tfds.as_dataframe ):
wmt15_translate / de-en
Описание конфигурации : набор данных задачи преобразования WMT 2015.
Размер загружаемого файла :
1.62 GiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 2 169 |
'train' | 4,522,998 |
'validation' | 3 003 |
- Особенности :
Translation({
'de': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см.
as_supervised
doc ):('de', 'en')
Примеры ( tfds.as_dataframe ):
wmt15_translate / fi-en
Описание конфигурации : набор данных задачи перевода WMT 2015 fi-en.
Размер загрузки :
260.51 MiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 1,370 |
'train' | 2 073 394 |
'validation' | 1,500 |
- Особенности :
Translation({
'en': Text(shape=(), dtype=tf.string),
'fi': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см.
as_supervised
doc ):('fi', 'en')
Примеры ( tfds.as_dataframe ):
wmt15_translate / fr-en
Описание конфигурации : набор данных задачи перевода WMT 2015 fr-en.
Размер загружаемого
6.24 GiB
:6.24 GiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 1,500 |
'train' | 40 853 298 |
'validation' | 4 503 |
- Особенности :
Translation({
'en': Text(shape=(), dtype=tf.string),
'fr': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см.
as_supervised
):('fr', 'en')
Примеры ( tfds.as_dataframe ):
wmt15_translate / ru-en
Описание конфигурации : набор данных задачи перевода WMT 2015 ru-en.
Размер загружаемого файла :
1.02 GiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 2 818 |
'train' | 2,495,081 |
'validation' | 3 003 |
- Особенности :
Translation({
'en': Text(shape=(), dtype=tf.string),
'ru': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см.
as_supervised
doc ):('ru', 'en')
Примеры ( tfds.as_dataframe ):