¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

wmt17_translate

  • Descripción:

Traducir el conjunto de datos según los datos de statmt.org.

Existen versiones para los diferentes años utilizando una combinación de múltiples fuentes de datos. La base wmt_translate le permite crear su propia configuración para elegir su propio par de datos / idioma mediante la creación de una costumbre tfds.translate.wmt.WmtConfig .

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
  • Inicio: http://www.statmt.org/wmt17/translation-task.html

  • El código fuente: tfds.translate.Wmt17Translate

  • versiones:

    • 1.0.0 (por defecto): No hay notas de la versión.
  • Tamaño de conjunto de datos: Unknown size

  • Las instrucciones de descarga manual: Este conjunto de datos se requiere para descargar los datos de origen manualmente en download_config.manual_dir (por defecto ~/tensorflow_datasets/downloads/manual/ ):
    Algunas de las configuraciones de wmt aquí requieren una descarga manual. Consulte wmt.py para ver la ruta exacta (y el nombre del archivo) que debe descargar.

  • Auto-caché ( documentación ): Desconocido

  • Figura ( tfds.show_examples ): No soportado.

  • Cita:

@InProceedings{bojar-EtAl:2017:WMT1,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Graham, Yvette  and  Haddow, Barry  and  Huang, Shujian  and  Huck, Matthias  and  Koehn, Philipp  and  Liu, Qun  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Post, Matt  and  Rubino, Raphael  and  Specia, Lucia  and  Turchi, Marco},
  title     = {Findings of the 2017 Conference on Machine Translation (WMT17)},
  booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
  month     = {September},
  year      = {2017},
  address   = {Copenhagen, Denmark},
  publisher = {Association for Computational Linguistics},
  pages     = {169--214},
  url       = {http://www.aclweb.org/anthology/W17-4717}
}

wmt17_translate / cs-en (configuración predeterminada)

  • Descripción config: WMT 2017 cs-en conjunto de datos tarea de traducción.

  • Tamaño del paquete: 1.66 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 3.005
'train' 15,851,649
'validation' 2,999
  • características:
Translation({
    'cs': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

wmt17_translate / de-en

  • Descripción config: WMT 2017 de conjunto de datos-es tarea de traducción.

  • Tamaño del paquete: 1.81 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 3.004
'train' 5,906,184
'validation' 2,999
  • características:
Translation({
    'de': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

wmt17_translate / fi-en

  • Descripción config: WMT 2017 fi-en traducción de tareas conjunto de datos.

  • Tamaño del paquete: 414.10 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 6,004
'train' 2.656.542
'validation' 6.000
  • características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'fi': Text(shape=(), dtype=tf.string),
})

wmt17_translate / lv-en

  • Descripción config: WMT 2017 LV-en traducción de tareas conjunto de datos.

  • Tamaño del paquete: 161.69 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 2.001
'train' 3,567,528
'validation' 2.003
  • características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'lv': Text(shape=(), dtype=tf.string),
})

wmt17_translate / ru-en

  • Descripción config: WMT 2017 ru-en conjunto de datos tarea de traducción.

  • Tamaño del paquete: 3.34 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 3.001
'train' 25,782,720
'validation' 2,998
  • características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'ru': Text(shape=(), dtype=tf.string),
})

wmt17_translate / tr-es

  • Descripción config: WMT 2017 TR-en traducción de tareas conjunto de datos.

  • Tamaño del paquete: 59.32 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 3.007
'train' 205,756
'validation' 3000
  • características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'tr': Text(shape=(), dtype=tf.string),
})

wmt17_translate / zh-en

  • Descripción config: WMT 2017 zh-en traducción de tareas conjunto de datos.

  • Tamaño del paquete: 2.16 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 2.001
'train' 25,136,609
'validation' 2.002
  • características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'zh': Text(shape=(), dtype=tf.string),
})