- Описание:
Перевести набор данных на основе данных statmt.org.
Версии существуют для разных лет с использованием комбинации нескольких источников данных. База wmt_translate
позволяет создавать свои собственные конфигурации , чтобы выбрать свою собственную пару данных / языка путем создания пользовательского tfds.translate.wmt.WmtConfig
.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Домашняя страница: http://www.statmt.org/wmt17/translation-task.html
Исходный код:
tfds.translate.Wmt17Translate
Версии:
-
1.0.0
( по умолчанию): Нет Замечания к выпуску.
-
Dataset размер:
Unknown size
Руководство по эксплуатации скачать: Этот набор данных требует от вас , чтобы загрузить исходные данные вручную в
download_config.manual_dir
( по умолчанию~/tensorflow_datasets/downloads/manual/
):
Некоторые из приведенных здесь конфигураций wmt требуют ручной загрузки. Пожалуйста, загляните в wmt.py, чтобы увидеть точный путь (и имя файла), который необходимо загрузить.Авто-кэшируются ( документация ): Unknown
Рис ( tfds.show_examples ): Не поддерживается.
Образец цитирования:
@InProceedings{bojar-EtAl:2017:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huang, Shujian and Huck, Matthias and Koehn, Philipp and Liu, Qun and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Rubino, Raphael and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2017 Conference on Machine Translation (WMT17)},
booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
month = {September},
year = {2017},
address = {Copenhagen, Denmark},
publisher = {Association for Computational Linguistics},
pages = {169--214},
url = {http://www.aclweb.org/anthology/W17-4717}
}
wmt17_translate / cs-en (конфигурация по умолчанию)
Описание Config: WMT +2017 CS-ы задачи перевода данные.
Скачать Размер:
1.66 GiB
расколы:
Расколоть | Примеры |
---|---|
'test' | 3 005 |
'train' | 15 851 649 |
'validation' | 2 999 |
- Особенности:
Translation({
'cs': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (См
as_supervised
документ ):('cs', 'en')
Примеры ( tfds.as_dataframe ):
wmt17_translate / de-en
Описание Config: WMT +2017 де-ан задач перевода данных.
Скачать Размер:
1.81 GiB
расколы:
Расколоть | Примеры |
---|---|
'test' | 3 004 |
'train' | 5 906 184 |
'validation' | 2 999 |
- Особенности:
Translation({
'de': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (См
as_supervised
документ ):('de', 'en')
Примеры ( tfds.as_dataframe ):
wmt17_translate / fi-en
Описание конфигурации: WMT 2017 фи-ный перевод задача набора данных.
Скачать Размер:
414.10 MiB
расколы:
Расколоть | Примеры |
---|---|
'test' | 6 004 |
'train' | 2 656 542 |
'validation' | 6000 |
- Особенности:
Translation({
'en': Text(shape=(), dtype=tf.string),
'fi': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (См
as_supervised
документ ):('fi', 'en')
Примеры ( tfds.as_dataframe ):
wmt17_translate / lv-en
Описание конфигурации: WMT 2017 LV-ный перевод задача набора данных.
Скачать Размер:
161.69 MiB
расколы:
Расколоть | Примеры |
---|---|
'test' | 2 001 |
'train' | 3,567,528 |
'validation' | 2 003 |
- Особенности:
Translation({
'en': Text(shape=(), dtype=tf.string),
'lv': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (См
as_supervised
документ ):('lv', 'en')
Примеры ( tfds.as_dataframe ):
wmt17_translate / ru-en
Описание Config: WMT 2017 Ru-En задачи перевода данных.
Скачать Размер:
3.34 GiB
расколы:
Расколоть | Примеры |
---|---|
'test' | 3 001 |
'train' | 25 782 720 |
'validation' | 2 998 |
- Особенности:
Translation({
'en': Text(shape=(), dtype=tf.string),
'ru': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (См
as_supervised
документ ):('ru', 'en')
Примеры ( tfds.as_dataframe ):
wmt17_translate / tr-en
Описание Config: WMT 2017 тр-ный перевод задача набора данных.
Скачать Размер:
59.32 MiB
расколы:
Расколоть | Примеры |
---|---|
'test' | 3 007 |
'train' | 205 756 |
'validation' | 3 000 |
- Особенности:
Translation({
'en': Text(shape=(), dtype=tf.string),
'tr': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (См
as_supervised
документ ):('tr', 'en')
Примеры ( tfds.as_dataframe ):
wmt17_translate / zh-en
Описание Config: WMT +2017 ж-ный переводом задача набора данных.
Скачать Размер:
2.16 GiB
расколы:
Расколоть | Примеры |
---|---|
'test' | 2 001 |
'train' | 25 136 609 |
'validation' | 2 002 |
- Особенности:
Translation({
'en': Text(shape=(), dtype=tf.string),
'zh': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (См
as_supervised
документ ):('zh', 'en')
Примеры ( tfds.as_dataframe ):