voix_commune

  • Descriptif :

Ensemble de données vocales communes de Mozilla

FeaturesDict({
    'accent': Text(shape=(), dtype=string),
    'age': Text(shape=(), dtype=string),
    'client_id': Text(shape=(), dtype=string),
    'downvotes': Scalar(shape=(), dtype=int32),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'segment': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
    'upvotes': Scalar(shape=(), dtype=int32),
    'voice': Audio(shape=(None,), dtype=int64),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
accent Texte chaîne de caractères Accent du locuteur, voir https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
âge Texte chaîne de caractères Tranche d'âge du locuteur (par exemple, adolescents ou quadragénaires), voir https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
identité du client Texte chaîne de caractères UUID haché d'un utilisateur donné
votes négatifs Scalaire int32 Nombre de personnes qui ont dit que l'audio ne correspond pas au texte
le genre Étiquette de classe int64 Sexe de l'orateur
segment Texte chaîne de caractères Si la phrase appartient à un segment de jeu de données personnalisé, elle sera répertoriée ici
phrase Texte chaîne de caractères Transcription supposée de l'audio
votes positifs Scalaire int32 Nombre de personnes qui ont dit que le son correspond au texte
voix l'audio (Aucun,) int64

common_voice/fr (configuration par défaut)

  • Description de la configuration : Code de langue : en

  • Taille du téléchargement : 56.45 GiB

  • Taille du jeu de données : 2.79 TiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 16 164
'test' 16 164
'train' 564 337
'validation' 1 224 864

voix_commune/ab

  • Description de la configuration : Code de langue : ab

  • Taille du téléchargement : 39.14 MiB

  • Taille du jeu de données : 133.24 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 9
'train' 22
'validation' 31

voix_commune/ar

  • Description de la configuration : Code de langue : ar

  • Taille du téléchargement : 1.64 GiB

  • Taille du jeu de données : 67.16 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 7 517
'test' 7 622
'train' 14 227
'validation' 43 291

voix_commune/as

  • Description de la configuration : Code de langue : as

  • Taille du téléchargement : 21.20 MiB

  • Taille du jeu de données : 1.65 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 124
'test' 110
'train' 270
'validation' 504

voix_commune/br

  • Description de la configuration : Code de langue : br

  • Taille du téléchargement : 443.72 MiB

  • Taille du jeu de données : 13.46 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 1 997
'test' 2 087
'train' 2 780
'validation' 8 560

voix_commune/ca

  • Description de la configuration : Code de langue : ca

  • Taille du téléchargement : 19.32 GiB

  • Taille du jeu de données : 1.19 TiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 15 724
'test' 15 724
'train' 285 584
'validation' 416 701

common_voice/cnh

  • Description de la configuration : Code de langue : cnh

  • Taille du téléchargement : 153.86 MiB

  • Taille du jeu de données : 5.12 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 756
'test' 752
'train' 807
'validation' 2 432

common_voice/cs

  • Description de la configuration : Code de langue : cs

  • Taille du téléchargement : 1.18 GiB

  • Taille du jeu de données : 56.89 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 4 118
'test' 4 144
'train' 5 655
'validation' 30 431

common_voice/cv

  • Description de la configuration : Code de langue : cv

  • Taille du téléchargement : 418.98 MiB

  • Taille du jeu de données : 8.10 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 818
'test' 788
'train' 931
'validation' 3 496

voix_commune/cy

  • Description de la configuration : Code de langue : cy

  • Taille du téléchargement : 3.20 GiB

  • Taille du jeu de données : 128.68 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 4 776
'test' 4 820
'train' 6 839
'validation' 72 984

common_voice/de

  • Description de la configuration : Code de langue : de

  • Taille du téléchargement : 21.68 GiB

  • Taille du jeu de données : 1.29 TiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 15 588
'test' 15 588
'train' 246 525
'validation' 565 186

voix_commune/dv

  • Description de la configuration : Code de langue : dv

  • Taille du téléchargement : 515.45 MiB

  • Taille du jeu de données : 31.59 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 2 077
'test' 2 202
'train' 2 680
'validation' 11 866

voix_commune/el

  • Description de la configuration : Code de langue : el

  • Taille du téléchargement : 363.89 MiB

  • Taille du jeu de données : 14.62 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 1 401
'test' 1 522
'train' 2 316
'validation' 5 996

voix_commune/eo

  • Description de la configuration : Code de langue : eo

  • Taille du téléchargement : 2.69 GiB

  • Taille du jeu de données : 167.14 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 8 987
'test' 8 969
'train' 19 587
'validation' 58 094

common_voice/es

  • Description de la configuration : Code de langue : es

  • Taille du téléchargement : 15.08 GiB

  • Taille du jeu de données : 684.66 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 15 089
'test' 15 089
'train' 161 813
'validation' 236 314

voix_commune/et

  • Description de la configuration : Code de langue : et

  • Taille du téléchargement : 731.63 MiB

  • Taille du jeu de données : 37.95 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 2 507
'test' 2 509
'train' 2 966
'validation' 10 683

common_voice/eu

  • Description de la configuration : Code de langue : eu

  • Taille du téléchargement : 3.41 GiB

  • Taille du jeu de données : 127.60 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 5 172
'test' 5 172
'train' 7 505
'validation' 63 009

voix_commune/fa

  • Description de la configuration : Code de langue : fa

  • Taille du téléchargement : 8.27 GiB

  • Taille du jeu de données : 328.61 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 5 213
'test' 5 213
'train' 7 593
'validation' 251 659

voix_commune/fi

  • Description de la configuration : Code de langue : fi

  • Taille du téléchargement : 47.57 MiB

  • Taille du jeu de données : 3.41 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 415
'test' 428
'train' 460
'validation' 1 305

common_voice/fr

  • Description de la configuration : Code de langue : fr

  • Taille du téléchargement : 17.82 GiB

  • Taille du jeu de données : 1.17 TiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 15 763
'test' 15 763
'train' 298 982
'validation' 461 004

common_voice/fy-NL

  • Description de la configuration : Code de langue : fy-NL

  • Taille du téléchargement : 1.15 GiB

  • Taille du jeu de données : 29.93 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 2 790
'test' 3 020
'train' 3 927
'validation' 10 495

common_voice/ga-IE

  • Description de la configuration : Code de langue : ga-IE

  • Taille du téléchargement : 149.30 MiB

  • Taille du jeu de données : 5.11 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 497
'test' 506
'train' 541
'validation' 3 352

common_voice/salut

  • Description de la configuration : Code de langue : salut

  • Taille du téléchargement : 20.43 MiB

  • Taille du jeu de données : 1.15 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 135
'test' 127
'train' 157
'validation' 419

common_voice/hsb

  • Description de la configuration : Code de langue : hsb

  • Taille du téléchargement : 75.69 MiB

  • Taille du jeu de données : 5.67 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 172
'test' 387
'train' 808
'validation' 1 367

voix_commune/hu

  • Description de la configuration : Code de langue : hu

  • Taille du téléchargement : 231.51 MiB

  • Taille du jeu de données : 17.07 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 1 434
'test' 1 649
'train' 3 348
'validation' 6 457

voix_commune/ia

  • Description de la configuration : Code de langue : ia

  • Taille du téléchargement : 216.01 MiB

  • Taille du jeu de données : 14.99 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 1 601
'test' 899
'train' 3 477
'validation' 5 978

common_voice/id

  • Description de la configuration : Code de langue : id

  • Taille du téléchargement : 453.87 MiB

  • Taille du jeu de données : 17.20 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 1 835
'test' 1 844
'train' 2 130
'validation' 8 696

voix_commune/it

  • Description de la config : Code de la langue : it

  • Taille du téléchargement : 5.20 GiB

  • Taille du jeu de données : 316.38 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 12 928
'test' 12 928
'train' 58 015
'validation' 102 579

voix_commune/ja

  • Description de la configuration : Code de langue : ja

  • Taille du téléchargement : 145.80 MiB

  • Taille du jeu de données : 6.83 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 586
'test' 632
'train' 722
'validation' 3 072

voix_commune/ka

  • Description de la configuration : Code de langue : ka

  • Taille du téléchargement : 99.45 MiB

  • Taille du jeu de données : 7.51 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 527
'test' 656
'train' 1 058
'validation' 2 275

voix_commune/kab

  • Description de la configuration : Code de langue : kab

  • Taille du téléchargement : 15.99 GiB

  • Taille du jeu de données : 718.51 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 14 622
'test' 14 622
'train' 120 530
'validation' 573 718

voix_commune/ky

  • Description de la configuration : Code de langue : ky

  • Taille du téléchargement : 552.60 MiB

  • Taille du jeu de données : 18.70 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 1 511
'test' 1 503
'train' 1 955
'validation' 9 236

voix_commune/lg

  • Description de la configuration : Code de langue : lg

  • Taille du téléchargement : 198.55 MiB

  • Taille du jeu de données : 6.65 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 384
'test' 584
'train' 1 250
'validation' 2 220

voix_commune/lt

  • Description de la configuration : Code de langue : lt

  • Taille du téléchargement : 129.03 MiB

  • Taille du jeu de données : 4.79 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 244
'test' 466
'train' 931
'validation' 1 644

voix_commune/lv

  • Description de la configuration : Code de langue : lv

  • Taille du téléchargement : 198.66 MiB

  • Taille du jeu de données : 13.07 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 2 002
'test' 1 882
'train' 2 552
'validation' 6 444

common_voice/mn

  • Description de la configuration : Code de langue : mn

  • Taille du téléchargement : 463.84 MiB

  • Taille du jeu de données : 22.09 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 1 837
'test' 1 862
'train' 2 183
'validation' 7 487

voix_commune/mt

  • Description de la configuration : Code de langue : mt

  • Taille du téléchargement : 405.42 MiB

  • Taille du jeu de données : 15.09 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 1 516
'test' 1 617
'train' 2 036
'validation' 5 747

voix_commune/nl

  • Description de la configuration : Code de langue : nl

  • Taille du téléchargement : 1.62 GiB

  • Taille du jeu de données : 90.20 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 4 938
'test' 5 708
'train' 9 460
'validation' 52 488

common_voice/ou

  • Description de la config : Code langue : ou

  • Taille du téléchargement : 189.85 MiB

  • Taille du jeu de données : 1.97 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 129
'test' 98
'train' 388
'validation' 615

common_voice/pa-IN

  • Description de la configuration : Code de langue : pa-IN

  • Taille du téléchargement : 66.52 MiB

  • Taille du jeu de données : 1.03 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 44
'test' 116
'train' 211
'validation' 371

voix_commune/pl

  • Description de la configuration : Code de langue : pl

  • Taille du téléchargement : 3.29 GiB

  • Taille du jeu de données : 141.06 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 5 153
'test' 5 153
'train' 7 468
'validation' 90 791

voix_commune/pt

  • Description de la configuration : Code de langue : pt

  • Taille du téléchargement : 1.59 GiB

  • Taille du jeu de données : 75.64 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 4 592
'test' 4 641
'train' 6 514
'validation' 41 584

common_voice/rm-sursilv

  • Description de la configuration : Code de langue : rm-sursilv

  • Taille du téléchargement : 263.17 MiB

  • Taille du jeu de données : 12.31 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 1 205
'test' 1 194
'train' 1 384
'validation' 3 783

common_voice/rm-vallader

  • Description de la configuration : Code de langue : rm-vallader

  • Taille du téléchargement : 103.11 MiB

  • Taille du jeu de données : 4.89 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 357
'test' 378
'train' 574
'validation' 1 316

voix_commune/ro

  • Description de la configuration : Code de langue : ro

  • Taille du téléchargement : 249.84 MiB

  • Taille du jeu de données : 14.54 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 858
'test' 1 778
'train' 3 399
'validation' 6 039

voix_commune/ru

  • Description de la configuration : Code de langue : ru

  • Taille du téléchargement : 3.40 GiB

  • Taille du jeu de données : 175.04 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 7 963
'test' 8 007
'train' 15 481
'validation' 74 256

common_voice/rw

  • Description de la configuration : Code de langue : rw

  • Taille du téléchargement : 39.62 GiB

  • Taille du jeu de données : 2.18 TiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 15 032
'test' 15 724
'train' 515 197
'validation' 832 929

voix_commune/sah

  • Description de la configuration : Code de langue : sah

  • Taille du téléchargement : 172.85 MiB

  • Taille du jeu de données : 9.42 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 405
'test' 757
'train' 1 442
'validation' 2 606

voix_commune/sl

  • Description de la configuration : Code de langue : sl

  • Taille du téléchargement : 212.43 MiB

  • Taille du jeu de données : 9.67 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 556
'test' 881
'train' 2 038
'validation' 4 669

common_voice/sv-SE

  • Description de la configuration : Code de langue : sv-SE

  • Taille du téléchargement : 401.91 MiB

  • Taille du jeu de données : 18.27 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 2 019
'test' 2 027
'train' 2 331
'validation' 12 552

voix_commune/ta

  • Description de la configuration : Code de langue : ta

  • Taille du téléchargement : 648.28 MiB

  • Taille du jeu de données : 24.06 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 1 779
'test' 1 781
'train' 2 009
'validation' 12 652

voix_commune/th

  • Description de la configuration : Code de langue : th

  • Taille du téléchargement : 325.49 MiB

  • Taille du jeu de données : 18.32 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 1 922
'test' 2 188
'train' 2 917
'validation' 7 028

voix_commune/tr

  • Description de la configuration : Code de langue : tr

  • Taille du téléchargement : 592.09 MiB

  • Taille du jeu de données : 28.21 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 1 647
'test' 1 647
'train' 1 831
'validation' 18 685

voix_commune/tt

  • Description de la configuration : Code de langue : tt

  • Taille du téléchargement : 741.15 MiB

  • Taille du jeu de données : 46.85 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 2 127
'test' 4 485
'train' 11 211
'validation' 25 781

common_voice/fr

  • Description de la configuration : Code de langue : uk

  • Taille du téléchargement : 1.13 GiB

  • Taille du jeu de données : 49.66 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 3 236
'test' 3 235
'train' 4 035
'validation' 22 337

voix_commune/vi

  • Description de la configuration : Code de langue : vi

  • Taille du téléchargement : 49.52 MiB

  • Taille du jeu de données : 1.47 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 200
'test' 198
'train' 221
'validation' 619

voix_commune/vote

  • Description de la configuration : Code de langue : vot

  • Taille du téléchargement : 7.43 MiB

  • Taille du jeu de données : 11.39 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 3
'validation' 3

common_voice/zh-CN

  • Description de la configuration : Code de langue : zh-CN

  • Taille du téléchargement : 2.03 GiB

  • Taille du jeu de données : 122.54 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 8 743
'test' 8 760
'train' 18 541
'validation' 36 405

voix_commune/zh-HK

  • Description de la configuration : Code de langue : zh-HK

  • Taille du téléchargement : 2.58 GiB

  • Taille du jeu de données : 78.80 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 5 172
'test' 5 172
'train' 7 506
'validation' 41 835

voix_commune/zh-TW

  • Description de la configuration : Code de langue : zh-TW

  • Taille du téléchargement : 2.03 GiB

  • Taille du jeu de données : 69.06 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'dev' 2 895
'test' 2 895
'train' 3 507
'validation' 61 232