voz_comun

  • Descripción :

Conjunto de datos de voz común de Mozilla

FeaturesDict({
    'accent': Text(shape=(), dtype=tf.string),
    'age': Text(shape=(), dtype=tf.string),
    'client_id': Text(shape=(), dtype=tf.string),
    'downvotes': Scalar(shape=(), dtype=tf.int32),
    'gender': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'segment': Text(shape=(), dtype=tf.string),
    'sentence': Text(shape=(), dtype=tf.string),
    'upvotes': Scalar(shape=(), dtype=tf.int32),
    'voice': Audio(shape=(None,), dtype=tf.int64),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
acento Texto tf.cadena Acento del hablante, consulte https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
años Texto tf.cadena Grupo de edad del hablante (por ejemplo, adolescentes o cuarenta), consulte https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
Identificación del cliente Texto tf.cadena UUID hash de un usuario dado
votos negativos Escalar tf.int32 Número de personas que dijeron que el audio no coincide con el texto
género Etiqueta de clase tf.int64 Género del hablante
segmento Texto tf.cadena Si la oración pertenece a un segmento de conjunto de datos personalizado, se enumerará aquí
frase Texto tf.cadena Supuesta transcripción del audio.
votos a favor Escalar tf.int32 Número de personas que dijeron que el audio coincide con el texto
voz Audio (Ninguna,) tf.int64

common_voice/en (configuración predeterminada)

  • Descripción de la configuración : Código de idioma: en

  • Tamaño de descarga : 56.45 GiB

  • Tamaño del conjunto de datos : 2.79 TiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 16,164
'test' 16,164
'train' 564,337
'validation' 1,224,864

common_voice/ab

  • Descripción de configuración : Código de idioma: ab

  • Tamaño de la descarga : 39.14 MiB

  • Tamaño del conjunto de datos : 133.24 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 9
'train' 22
'validation' 31

common_voice/ar

  • Descripción de la configuración : Código de idioma: ar

  • Tamaño de descarga : 1.64 GiB

  • Tamaño del conjunto de datos : 67.16 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 7,517
'test' 7,622
'train' 14,227
'validation' 43,291

common_voice/as

  • Descripción de configuración : Código de idioma: como

  • Tamaño de descarga : 21.20 MiB

  • Tamaño del conjunto de datos : 1.65 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 124
'test' 110
'train' 270
'validation' 504

voz_común/br

  • Descripción de la configuración : Código de idioma: br

  • Tamaño de la descarga : 443.72 MiB

  • Tamaño del conjunto de datos : 13.46 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,997
'test' 2,087
'train' 2,780
'validation' 8,560

common_voice/es

  • Descripción de configuración : Código de idioma: ca

  • Tamaño de descarga : 19.32 GiB

  • Tamaño del conjunto de datos : 1.19 TiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 15,724
'test' 15,724
'train' 285,584
'validation' 416,701

voz_común/cnh

  • Descripción de la configuración : Código de idioma: cnh

  • Tamaño de la descarga : 153.86 MiB

  • Tamaño del conjunto de datos : 5.12 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 756
'test' 752
'train' 807
'validation' 2,432

common_voice/cs

  • Descripción de la configuración : Código de idioma: cs

  • Tamaño de descarga : 1.18 GiB

  • Tamaño del conjunto de datos : 56.89 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 4,118
'test' 4,144
'train' 5,655
'validation' 30.431

voz_común/cv

  • Descripción de configuración : Código de idioma: cv

  • Tamaño de la descarga : 418.98 MiB

  • Tamaño del conjunto de datos : 8.10 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 818
'test' 788
'train' 931
'validation' 3,496

voz_comun/cy

  • Descripción de la configuración : Código de idioma: cy

  • Tamaño de descarga : 3.20 GiB

  • Tamaño del conjunto de datos : 128.68 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 4,776
'test' 4,820
'train' 6,839
'validation' 72,984

common_voice/de

  • Descripción de la configuración : Código de idioma: de

  • Tamaño de descarga : 21.68 GiB

  • Tamaño del conjunto de datos : 1.29 TiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 15,588
'test' 15,588
'train' 246,525
'validation' 565,186

common_voice/dv

  • Descripción de configuración : Código de idioma: dv

  • Tamaño de la descarga : 515.45 MiB

  • Tamaño del conjunto de datos : 31.59 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 2,077
'test' 2,202
'train' 2,680
'validation' 11,866

common_voice/el

  • Descripción de la configuración : Código de idioma: el

  • Tamaño de la descarga : 363.89 MiB

  • Tamaño del conjunto de datos : 14.62 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,401
'test' 1,522
'train' 2,316
'validation' 5,996

common_voice/eo

  • Descripción de configuración : Código de idioma: eo

  • Tamaño de descarga : 2.69 GiB

  • Tamaño del conjunto de datos : 167.14 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 8,987
'test' 8,969
'train' 19,587
'validation' 58,094

common_voice/es

  • Descripción de la configuración : Código de idioma: es

  • Tamaño de descarga : 15.08 GiB

  • Tamaño del conjunto de datos : 684.66 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 15,089
'test' 15,089
'train' 161,813
'validation' 236,314

common_voice/et

  • Descripción de la configuración : Código de idioma: et

  • Tamaño de la descarga : 731.63 MiB

  • Tamaño del conjunto de datos : 37.95 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 2,507
'test' 2,509
'train' 2,966
'validation' 10,683

common_voice/eu

  • Descripción de la configuración : Código de idioma: eu

  • Tamaño de descarga : 3.41 GiB

  • Tamaño del conjunto de datos : 127.60 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 5,172
'test' 5,172
'train' 7,505
'validation' 63,009

common_voice/fa

  • Descripción de la configuración : Código de idioma: fa

  • Tamaño de descarga : 8.27 GiB

  • Tamaño del conjunto de datos : 328.61 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 5,213
'test' 5,213
'train' 7,593
'validation' 251,659

common_voice/fi

  • Descripción de la configuración : Código de idioma: fi

  • Tamaño de la descarga : 47.57 MiB

  • Tamaño del conjunto de datos : 3.41 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 415
'test' 428
'train' 460
'validation' 1,305

common_voice/fr

  • Descripción de la configuración : Código de idioma: fr

  • Tamaño de descarga : 17.82 GiB

  • Tamaño del conjunto de datos : 1.17 TiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 15,763
'test' 15,763
'train' 298,982
'validation' 461,004

common_voice/fy-NL

  • Descripción de la configuración : Código de idioma: fy-NL

  • Tamaño de descarga : 1.15 GiB

  • Tamaño del conjunto de datos : 29.93 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 2,790
'test' 3,020
'train' 3,927
'validation' 10,495

common_voice/ga-ES

  • Descripción de configuración : Código de idioma: ga-IE

  • Tamaño de descarga : 149.30 MiB

  • Tamaño del conjunto de datos : 5.11 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 497
'test' 506
'train' 541
'validation' 3,352

common_voice/hola

  • Descripción de la configuración : Código de idioma: hola

  • Tamaño de la descarga : 20.43 MiB

  • Tamaño del conjunto de datos : 1.15 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 135
'test' 127
'train' 157
'validation' 419

common_voice/hsb

  • Descripción de configuración : Código de idioma: hsb

  • Tamaño de la descarga : 75.69 MiB

  • Tamaño del conjunto de datos : 5.67 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 172
'test' 387
'train' 808
'validation' 1,367

common_voice/hu

  • Descripción de la configuración : Código de idioma: hu

  • Tamaño de la descarga : 231.51 MiB

  • Tamaño del conjunto de datos : 17.07 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,434
'test' 1,649
'train' 3,348
'validation' 6,457

common_voice/ia

  • Descripción de configuración : Código de idioma: ia

  • Tamaño de descarga : 216.01 MiB

  • Tamaño del conjunto de datos : 14.99 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,601
'test' 899
'train' 3,477
'validation' 5,978

common_voice/id

  • Descripción de configuración : Código de idioma: id

  • Tamaño de la descarga : 453.87 MiB

  • Tamaño del conjunto de datos : 17.20 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,835
'test' 1,844
'train' 2,130
'validation' 8,696

voz_comun/es

  • Descripción de la configuración : Código de idioma: it

  • Tamaño de descarga : 5.20 GiB

  • Tamaño del conjunto de datos : 316.38 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 12,928
'test' 12,928
'train' 58,015
'validation' 102,579

common_voice/ja

  • Descripción de configuración : Código de idioma: ja

  • Tamaño de la descarga : 145.80 MiB

  • Tamaño del conjunto de datos : 6.83 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 586
'test' 632
'train' 722
'validation' 3,072

common_voice/ka

  • Descripción de configuración : Código de idioma: ka

  • Tamaño de la descarga : 99.45 MiB

  • Tamaño del conjunto de datos : 7.51 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 527
'test' 656
'train' 1,058
'validation' 2,275

voz_común/kab

  • Descripción de la configuración : Código de idioma: kab

  • Tamaño de descarga : 15.99 GiB

  • Tamaño del conjunto de datos : 718.51 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 14,622
'test' 14,622
'train' 120,530
'validation' 573,718

voz_común/ky

  • Descripción de la configuración : Código de idioma: ky

  • Tamaño de la descarga : 552.60 MiB

  • Tamaño del conjunto de datos : 18.70 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,511
'test' 1,503
'train' 1,955
'validation' 9,236

common_voice/lg

  • Descripción de configuración : Código de idioma: lg

  • Tamaño de la descarga : 198.55 MiB

  • Tamaño del conjunto de datos : 6.65 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 384
'test' 584
'train' 1,250
'validation' 2220

common_voice/lt

  • Descripción de configuración : Código de idioma: lt

  • Tamaño de descarga : 129.03 MiB

  • Tamaño del conjunto de datos : 4.79 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 244
'test' 466
'train' 931
'validation' 1,644

common_voice/lv

  • Descripción de configuración : Código de idioma: lv

  • Tamaño de la descarga : 198.66 MiB

  • Tamaño del conjunto de datos : 13.07 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 2,002
'test' 1,882
'train' 2,552
'validation' 6,444

common_voice/mn

  • Descripción de la configuración : Código de idioma: mn

  • Tamaño de la descarga : 463.84 MiB

  • Tamaño del conjunto de datos : 22.09 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,837
'test' 1,862
'train' 2,183
'validation' 7,487

common_voice/mt

  • Descripción de la configuración : Código de idioma: mt

  • Tamaño de la descarga : 405.42 MiB

  • Tamaño del conjunto de datos : 15.09 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,516
'test' 1,617
'train' 2,036
'validation' 5,747

common_voice/nl

  • Descripción de la configuración : Código de idioma: nl

  • Tamaño de descarga : 1.62 GiB

  • Tamaño del conjunto de datos : 90.20 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 4,938
'test' 5,708
'train' 9,460
'validation' 52,488

common_voice/o

  • Descripción de configuración : Código de idioma: o

  • Tamaño de la descarga : 189.85 MiB

  • Tamaño del conjunto de datos : 1.97 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 129
'test' 98
'train' 388
'validation' 615

common_voice/pa-IN

  • Descripción de la configuración : Código de idioma: pa-IN

  • Tamaño de la descarga : 66.52 MiB

  • Tamaño del conjunto de datos : 1.03 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 44
'test' 116
'train' 211
'validation' 371

common_voice/pl

  • Descripción de configuración : Código de idioma: pl

  • Tamaño de descarga : 3.29 GiB

  • Tamaño del conjunto de datos : 141.06 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 5,153
'test' 5,153
'train' 7,468
'validation' 90,791

common_voice/pt

  • Descripción de configuración : Código de idioma: pt

  • Tamaño de descarga : 1.59 GiB

  • Tamaño del conjunto de datos : 75.64 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 4,592
'test' 4,641
'train' 6,514
'validation' 41,584

common_voice/rm-sursilv

  • Descripción de la configuración : Código de idioma: rm-sursilv

  • Tamaño de la descarga : 263.17 MiB

  • Tamaño del conjunto de datos : 12.31 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,205
'test' 1,194
'train' 1,384
'validation' 3,783

common_voice/rm-vallader

  • Descripción de la configuración : Código de idioma: rm-vallader

  • Tamaño de la descarga : 103.11 MiB

  • Tamaño del conjunto de datos : 4.89 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 357
'test' 378
'train' 574
'validation' 1,316

common_voice/ro

  • Descripción de la configuración : Código de idioma: ro

  • Tamaño de la descarga : 249.84 MiB

  • Tamaño del conjunto de datos : 14.54 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 858
'test' 1,778
'train' 3,399
'validation' 6,039

common_voice/ru

  • Descripción de la configuración : Código de idioma: ru

  • Tamaño de descarga : 3.40 GiB

  • Tamaño del conjunto de datos : 175.04 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 7,963
'test' 8,007
'train' 15,481
'validation' 74,256

common_voice/rw

  • Descripción de la configuración : Código de idioma: rw

  • Tamaño de descarga : 39.62 GiB

  • Tamaño del conjunto de datos : 2.18 TiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 15,032
'test' 15,724
'train' 515,197
'validation' 832,929

common_voice/sah

  • Descripción de la configuración : Código de idioma: sah

  • Tamaño de la descarga : 172.85 MiB

  • Tamaño del conjunto de datos : 9.42 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 405
'test' 757
'train' 1,442
'validation' 2,606

voz_común/sl

  • Descripción de configuración : Código de idioma: sl

  • Tamaño de la descarga : 212.43 MiB

  • Tamaño del conjunto de datos : 9.67 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 556
'test' 881
'train' 2,038
'validation' 4,669

common_voice/sv-SE

  • Descripción de la configuración : Código de idioma: sv-SE

  • Tamaño de la descarga : 401.91 MiB

  • Tamaño del conjunto de datos : 18.27 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 2,019
'test' 2,027
'train' 2,331
'validation' 12,552

common_voice/ta

  • Descripción de configuración : Código de idioma: ta

  • Tamaño de la descarga : 648.28 MiB

  • Tamaño del conjunto de datos : 24.06 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,779
'test' 1,781
'train' 2,009
'validation' 12,652

common_voice/th

  • Descripción de la configuración : Código de idioma: th

  • Tamaño de la descarga : 325.49 MiB

  • Tamaño del conjunto de datos : 18.32 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,922
'test' 2,188
'train' 2,917
'validation' 7,028

voz_común/tr

  • Descripción de configuración : Código de idioma: tr

  • Tamaño de la descarga : 592.09 MiB

  • Tamaño del conjunto de datos : 28.21 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,647
'test' 1,647
'train' 1,831
'validation' 18,685

voz_común/tt

  • Descripción de configuración : Código de idioma: tt

  • Tamaño de la descarga : 741.15 MiB

  • Tamaño del conjunto de datos : 46.85 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 2,127
'test' 4,485
'train' 11,211
'validation' 25,781

common_voice/uk

  • Descripción de la configuración : Código de idioma: uk

  • Tamaño de descarga : 1.13 GiB

  • Tamaño del conjunto de datos : 49.66 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 3,236
'test' 3,235
'train' 4,035
'validation' 22,337

common_voice/vi

  • Descripción de la configuración : Código de idioma: vi

  • Tamaño de la descarga : 49.52 MiB

  • Tamaño del conjunto de datos : 1.47 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 200
'test' 198
'train' 221
'validation' 619

common_voice/vot

  • Descripción de la configuración : Código de idioma: vot

  • Tamaño de la descarga : 7.43 MiB

  • Tamaño del conjunto de datos : 11.39 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'train' 3
'validation' 3

common_voice/zh-CN

  • Descripción de configuración : Código de idioma: zh-CN

  • Tamaño de descarga : 2.03 GiB

  • Tamaño del conjunto de datos : 122.54 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 8,743
'test' 8,760
'train' 18,541
'validation' 36,405

common_voice/zh-HK

  • Descripción de la configuración : Código de idioma: zh-HK

  • Tamaño de descarga : 2.58 GiB

  • Tamaño del conjunto de datos : 78.80 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 5,172
'test' 5,172
'train' 7,506
'validation' 41,835

voz_común/zh-TW

  • Descripción de configuración : Código de idioma: zh-TW

  • Tamaño de descarga : 2.03 GiB

  • Tamaño del conjunto de datos : 69.06 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 2,895
'test' 2,895
'train' 3,507
'validation' 61,232