Ayuda a proteger la Gran Barrera de Coral con TensorFlow en Kaggle Únete Challenge

wiki40b

  • Descripción:

El texto de limpieza para más de 40 idiomas de Wikipedia ediciones de páginas corresponden a entidades. Los conjuntos de datos tienen divisiones train / dev / test por idioma. El conjunto de datos se limpia mediante el filtrado de páginas para eliminar páginas de desambiguación, redirigir páginas, páginas eliminadas y páginas que no son de entidad. Cada ejemplo contiene la identificación de wikidata de la entidad y el artículo completo de Wikipedia después del procesamiento de la página que elimina las secciones sin contenido y los objetos estructurados. Los modelos de lenguaje capacitados en este corpus - incluyendo 41 modelos monolingües y multilingües - 2 modelos se pueden encontrar en https: //tfhub.dev/ google / colecciones / wiki40b-lm / 1.

FeaturesDict({
    'text': Text(shape=(), dtype=tf.string),
    'version_id': Text(shape=(), dtype=tf.string),
    'wikidata_id': Text(shape=(), dtype=tf.string),
})
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b / en (configuración predeterminada)

  • Descripción config: Wiki40B conjunto de datos para el baño.

  • Tamaño de conjunto de datos: 9.91 GiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 162,274
'train' 2,926,536
'validation' 163.597

wiki40b / ar

  • Descripción config: Wiki40B conjunto de datos para la AR.

  • Conjunto de datos de tamaño: 833.20 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 12,271
'train' 220,885
'validation' 12.198

wiki40b / zh-cn

  • Descripción config: Wiki40B conjunto de datos para zh-cn.

  • Conjunto de datos de tamaño: 985.53 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 30,355
'train' 549.672
'validation' 30,299

wiki40b / zh-tw

  • Descripción config: Wiki40B conjunto de datos para zh-tw.

  • Conjunto de datos de tamaño: 986.45 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 30,670
'train' 552.031
'validation' 30,739

wiki40b / nl

  • Descripción config: Wiki40B conjunto de datos para nl.

  • Conjunto de datos de tamaño: 961.82 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 24,776
'train' 447,555
'validation' 25,201

wiki40b / fr

  • Descripción config: Wiki40B conjunto de datos para fr.

  • Tamaño de conjunto de datos: 3.37 GiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 68,004
'train' 1,227,206
'validation' 68.655

wiki40b / de

  • Descripción config: Wiki40B de conjunto de datos para.

  • Tamaño de conjunto de datos: 4.78 GiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 86,594
'train' 1,554,910
'validation' 86.068

wiki40b / it

  • Descripción config: Wiki40B conjunto de datos para ello.

  • Tamaño Conjunto de datos: 2.00 GiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 40,443
'train' 732,609
'validation' 40,684

wiki40b / ja

  • Descripción config: Wiki40B conjunto de datos para ja.

  • Tamaño de conjunto de datos: 2.19 GiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 41.268
'train' 745,392
'validation' 41.576

wiki40b / ko

  • Descripción config: Wiki40B conjunto de datos para ko.

  • Conjunto de datos de tamaño: 453.98 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 10.802
'train' 194,977
'validation' 10.805

wiki40b / pl

  • Descripción config: Wiki40B conjunto de datos para pl.

  • Tamaño de conjunto de datos: 1.03 GiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 27,987
'train' 505,191
'validation' 28,310

wiki40b / pt

  • Descripción config: Wiki40B conjunto de datos para el PT.

  • Tamaño Conjunto de datos: 1.08 GiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 22,693
'train' 406,507
'validation' 22.301

wiki40b / ru

  • Descripción config: Wiki40B conjunto de datos para ru.

  • Tamaño de conjunto de datos: 4.13 GiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 51,885
'train' 926,037
'validation' 51.287

wiki40b / es

  • Descripción config: Wiki40B conjunto de datos para la ES.

  • Tamaño Conjunto de datos: 2.70 GiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 48,764
'train' 872,541
'validation' 48,592

wiki40b / th

  • Descripción config: Wiki40B conjunto de datos para el th.

  • Conjunto de datos de tamaño: 326.29 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 3,114
'train' 56,798
'validation' 3,093

wiki40b / tr

  • Descripción config: Wiki40B conjunto de datos para tr.

  • Conjunto de datos de tamaño: 308.87 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 7.890
'train' 142,576
'validation' 7.845

wiki40b / bg

  • Descripción config: Wiki40B conjunto de datos de BG.

  • Conjunto de datos de tamaño: 433.20 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 7.289
'train' 130,670
'validation' 7.259

wiki40b / ca

  • Descripción config: Wiki40B conjunto de datos para ca.

  • Conjunto de datos de tamaño: 753.00 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 15,568
'train' 277,313
'validation' 15,362

wiki40b / cs

  • Descripción config: Wiki40B conjunto de datos para cs.

  • Conjunto de datos de tamaño: 631.84 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 12,984
'train' 235,971
'validation' 13,096

wiki40b / da

  • Descripción config: Wiki40B conjunto de datos para da.

  • Conjunto de datos de tamaño: 240.51 MiB

  • Auto-caché ( documentación ): Sí (ensayo, validación), solamente cuando está shuffle_files=False (tren)

  • Fraccionamientos:

Separar Ejemplos de
'test' 6.219
'train' 109.486
'validation' 6.173

wiki40b / el

  • Descripción config: Wiki40B conjunto de datos para el.

  • Conjunto de datos de tamaño: 524.77 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 5.261
'train' 93.596
'validation' 5.130

wiki40b / et

  • Descripción Config: Wiki40B conjunto de datos para et.

  • Conjunto de datos de tamaño: 184.07 MiB

  • Auto-caché ( documentación ): Sí (ensayo, validación), solamente cuando está shuffle_files=False (tren)

  • Fraccionamientos:

Separar Ejemplos de
'test' 6,205
'train' 114,464
'validation' 6.351

wiki40b / fa

  • Descripción config: Wiki40B conjunto de datos de FA.

  • Conjunto de datos de tamaño: 482.55 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 11,262
'train' 203,145
'validation' 11,180

wiki40b / fi

  • Descripción config: Wiki40B conjunto de datos para fi.

  • Conjunto de datos de tamaño: 534.13 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 14.179
'train' 255,822
'validation' 13,962

wiki40b / él

  • Descripción config: Wiki40B conjunto de datos para él.

  • Conjunto de datos de tamaño: 869.51 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 9.344
'train' 165,359
'validation' 9.231

wiki40b / hola

  • Descripción config: Wiki40B conjunto de datos de alta.

  • Conjunto de datos de tamaño: 277.56 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 2.643
'train' 45,737
'validation' 2.596

wiki40b / hora

  • Descripción Config: Wiki40B conjunto de datos para hr.

  • Conjunto de datos de tamaño: 235.58 MiB

  • Auto-caché ( documentación ): Sí (ensayo, validación), solamente cuando está shuffle_files=False (tren)

  • Fraccionamientos:

Separar Ejemplos de
'test' 5.724
'train' 103,857
'validation' 5.792

wiki40b / hu

  • Descripción config: Wiki40B conjunto de datos para hu.

  • Conjunto de datos de tamaño: 634.25 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 15,258
'train' 273,248
'validation' 15,208

wiki40b / id

  • Descripción config: Wiki40B conjunto de datos para la identificación.

  • Conjunto de datos de tamaño: 334.06 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 8.598
'train' 156,255
'validation' 8.714

wiki40b / lt

  • Descripción Config: Wiki40B conjunto de datos para lt.

  • Conjunto de datos de tamaño: 140.46 MiB

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'test' 4.683
'train' 84,854
'validation' 4.754

wiki40b / lv

  • Descripción config: Wiki40B conjunto de datos para lv.

  • Conjunto de datos de tamaño: 80.07 MiB

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'test' 1.932
'train' 33,064
'validation' 1.857

wiki40b / ms

  • Descripción config: Wiki40B conjunto de datos para la EM.

  • Conjunto de datos de tamaño: 142.49 MiB

  • Auto-caché ( documentación ): Sí (ensayo, validación), solamente cuando está shuffle_files=False (tren)

  • Fraccionamientos:

Separar Ejemplos de
'test' 5.235
'train' 97.509
'validation' 5.357

wiki40b / no

  • Descripción config: Wiki40B conjunto de datos para no.

  • Conjunto de datos de tamaño: 382.03 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 10.588
'train' 190.588
'validation' 10,547

wiki40b / ro

  • Descripción config: Wiki40B conjunto de datos para ro.

  • Conjunto de datos de tamaño: 319.68 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 7.870
'train' 139,615
'validation' 7,624

wiki40b / sk

  • Descripción config: Wiki40B conjunto de datos para sk.

  • Conjunto de datos de tamaño: 170.20 MiB

  • Auto-caché ( documentación ): Sí (ensayo, validación), solamente cuando está shuffle_files=False (tren)

  • Fraccionamientos:

Separar Ejemplos de
'test' 5.741
'train' 103,095
'validation' 5.604

wiki40b / sl

  • Descripción config: Wiki40B conjunto de datos para sl.

  • Conjunto de datos de tamaño: 157.38 MiB

  • Auto-caché ( documentación ): Sí (ensayo, validación), solamente cuando está shuffle_files=False (tren)

  • Fraccionamientos:

Separar Ejemplos de
'test' 3.341
'train' 60,927
'validation' 3,287

wiki40b / sr

  • Descripción config: Wiki40B conjunto de datos para el sr.

  • Conjunto de datos de tamaño: 582.20 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 17.997
'train' 327,313
'validation' 18,100

wiki40b / sv

  • Descripción config: Wiki40B conjunto de datos para sv.

  • Conjunto de datos de tamaño: 613.62 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 22,291
'train' 400,742
'validation' 22,263

wiki40b / tl

  • Descripción config: Wiki40B conjunto de datos para tl.

  • Conjunto de datos de tamaño: 29.04 MiB

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'test' 1,446
'train' 25,940
'validation' 1,472

wiki40b / reino unido

  • Descripción config: Wiki40B conjunto de datos para el Reino Unido.

  • Tamaño de conjunto de datos: 1.67 GiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 26.581
'train' 477,618
'validation' 26,324

wiki40b / vi

  • Descripción config: Wiki40B conjunto de datos para vi.

  • Conjunto de datos de tamaño: 497.70 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 7,942
'train' 146,255
'validation' 8.195