¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

opus

  • Descripción:

OPUS es una colección de textos traducidos de la web.

Cree su propia configuración para elegir qué par de datos / idioma cargar.

config = tfds.translate.opus.OpusConfig(
    version=tfds.core.Version('0.1.0'),
    language_pair=("de", "en"),
    subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Translation({
    'de': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})
@inproceedings{Tiedemann2012ParallelData,
  author = {Tiedemann, J},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {LREC}
  year = {2012} }

opus / medical (configuración predeterminada)

  • Descripción config: documentos médicos

  • Tamaño del paquete: 34.29 MiB

  • Conjunto de datos de tamaño: 188.85 MiB

  • Auto-caché ( documentación ): Sólo cuando shuffle_files=False (tren)

  • Fraccionamientos:

Separar Ejemplos de
'train' 1,108,752

opus / ley

  • Descripción config: documentos de abogados

  • Tamaño del paquete: 46.99 MiB

  • Conjunto de datos de tamaño: 214.44 MiB

  • Auto-caché ( documentación ): Sólo cuando shuffle_files=False (tren)

  • Fraccionamientos:

Separar Ejemplos de
'train' 719,372

opus / corán

  • Descripción config: documentos koran

  • Tamaño del paquete: 35.42 MiB

  • Conjunto de datos de tamaño: 117.54 MiB

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'train' 537,128

opus / IT

  • Descripción config: documentos de TI

  • Tamaño del paquete: 10.33 MiB

  • Conjunto de datos de tamaño: 42.51 MiB

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'train' 347,817

opus / subtítulos

  • Descripción config: Subtítulos documentos

  • Tamaño del paquete: 677.64 MiB

  • Tamaño de conjunto de datos: 2.01 GiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'train' 22,512,639