- Descrizione :
Traduci il set di dati in base ai dati di statmt.org.
Esistono versioni per i diversi anni utilizzando una combinazione di più origini dati. Il wmt_translate
base wmt_translate
consente di creare la tua configurazione per scegliere la tua coppia di dati / lingua creando un tfds.translate.wmt.WmtConfig
personalizzato.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Homepage : http://www.statmt.org/wmt19/translation-task.html
Codice sorgente :
tfds.translate.Wmt19Translate
Versioni :
-
1.0.0
(predefinito): nessuna nota di rilascio.
-
Dimensioni set di dati :
Unknown size
Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in
download_config.manual_dir
(il valore predefinito è~/tensorflow_datasets/downloads/manual/
):
Alcune delle configurazioni di wmt qui, richiedono un download manuale. Per favore guarda in wmt.py per vedere il percorso esatto (e il nome del file) che deve essere scaricato.Memorizzazione automatica nella cache ( documentazione ): sconosciuta
Citazione :
@ONLINE {wmt19translate,
author = "Wikimedia Foundation",
title = "ACL 2019 Fourth Conference on Machine Translation (WMT19), Shared Task: Machine Translation of News",
url = "http://www.statmt.org/wmt19/translation-task.html"
}
- Figura ( tfds.show_examples ): non supportato.
wmt19_translate / cs-en (configurazione predefinita)
Descrizione della configurazione : set di dati dell'attività di traduzione cs-en WMT 2019.
Dimensioni download :
1.88 GiB
Divisioni :
Diviso | Esempi |
---|---|
'train' | 20.246.548 |
'validation' | 2.983 |
- Caratteristiche :
Translation({
'cs': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
Chiavi supervisionate (vedere
as_supervised
doc ):('cs', 'en')
Esempi ( tfds.as_dataframe ):
wmt19_translate / de-en
Descrizione della configurazione : set di dati dell'attività di traduzione de-en WMT 2019.
Dimensioni download :
9.71 GiB
Divisioni :
Diviso | Esempi |
---|---|
'train' | 38.690.334 |
'validation' | 2.998 |
- Caratteristiche :
Translation({
'de': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
Chiavi supervisionate (vedere
as_supervised
doc ):('de', 'en')
Esempi ( tfds.as_dataframe ):
wmt19_translate / fi-en
Descrizione configurazione : set di dati attività di traduzione fi-en WMT 2019.
Dimensioni download :
959.46 MiB
Divisioni :
Diviso | Esempi |
---|---|
'train' | 6.587.448 |
'validation' | 3.000 |
- Caratteristiche :
Translation({
'en': Text(shape=(), dtype=tf.string),
'fi': Text(shape=(), dtype=tf.string),
})
Chiavi supervisionate (Vedi
as_supervised
doc ):('fi', 'en')
Esempi ( tfds.as_dataframe ):
wmt19_translate / gu-en
Descrizione configurazione : set di dati dell'attività di traduzione gu-en WMT 2019.
Dimensioni download :
37.03 MiB
Divisioni :
Diviso | Esempi |
---|---|
'train' | 11.670 |
'validation' | 1.998 |
- Caratteristiche :
Translation({
'en': Text(shape=(), dtype=tf.string),
'gu': Text(shape=(), dtype=tf.string),
})
Chiavi supervisionate (Vedi
as_supervised
doc ):('gu', 'en')
Esempi ( tfds.as_dataframe ):
wmt19_translate / kk-en
Descrizione configurazione : set di dati dell'attività di traduzione WMT 2019 kk-en.
Dimensioni download :
39.58 MiB
Divisioni :
Diviso | Esempi |
---|---|
'train' | 126.583 |
'validation' | 2.066 |
- Caratteristiche :
Translation({
'en': Text(shape=(), dtype=tf.string),
'kk': Text(shape=(), dtype=tf.string),
})
Chiavi supervisionate (vedere
as_supervised
doc ):('kk', 'en')
Esempi ( tfds.as_dataframe ):
wmt19_translate / lt-en
Descrizione configurazione : set di dati attività di traduzione WMT 2019 lt-en.
Dimensioni download :
392.20 MiB
Divisioni :
Diviso | Esempi |
---|---|
'train' | 2.344.893 |
'validation' | 2.000 |
- Caratteristiche :
Translation({
'en': Text(shape=(), dtype=tf.string),
'lt': Text(shape=(), dtype=tf.string),
})
Chiavi supervisionate (vedere
as_supervised
doc ):('lt', 'en')
Esempi ( tfds.as_dataframe ):
wmt19_translate / ru-en
Descrizione configurazione : set di dati dell'attività di traduzione ru-en WMT 2019.
Dimensioni download :
3.86 GiB
Divisioni :
Diviso | Esempi |
---|---|
'train' | 38.492.126 |
'validation' | 3.000 |
- Caratteristiche :
Translation({
'en': Text(shape=(), dtype=tf.string),
'ru': Text(shape=(), dtype=tf.string),
})
Chiavi supervisionate (Vedi
as_supervised
doc ):('ru', 'en')
Esempi ( tfds.as_dataframe ):
wmt19_translate / zh-en
Descrizione configurazione : set di dati dell'attività di traduzione di WMT 2019 zh-en.
Dimensioni download :
2.04 GiB
Divisioni :
Diviso | Esempi |
---|---|
'train' | 25.986.436 |
'validation' | 3.981 |
- Caratteristiche :
Translation({
'en': Text(shape=(), dtype=tf.string),
'zh': Text(shape=(), dtype=tf.string),
})
Chiavi supervisionate (Vedi
as_supervised
doc ):('zh', 'en')
Esempi ( tfds.as_dataframe ):
wmt19_translate / fr-de
Descrizione configurazione : set di dati dell'attività di traduzione WMT 2019 fr-de.
Dimensioni download :
722.20 MiB
Divisioni :
Diviso | Esempi |
---|---|
'train' | 9.824.476 |
'validation' | 1.512 |
- Caratteristiche :
Translation({
'de': Text(shape=(), dtype=tf.string),
'fr': Text(shape=(), dtype=tf.string),
})
Chiavi supervisionate (Vedi
as_supervised
doc ):('fr', 'de')
Esempi ( tfds.as_dataframe ):