common_voice

  • 설명 :

Mozilla Common Voice 데이터셋

FeaturesDict({
    'accent': Text(shape=(), dtype=string),
    'age': Text(shape=(), dtype=string),
    'client_id': Text(shape=(), dtype=string),
    'downvotes': Scalar(shape=(), dtype=int32),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'segment': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
    'upvotes': Scalar(shape=(), dtype=int32),
    'voice': Audio(shape=(None,), dtype=int64),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
악센트 텍스트 화자의 억양, https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts 참조
나이 텍스트 화자의 연령 버킷(예: 10대 또는 40대), https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts 참조
client_id 텍스트 주어진 사용자의 해시된 UUID
반대표 스칼라 int32 오디오가 텍스트와 일치하지 않는다고 말한 사람의 수
성별 클래스 레이블 int64 화자의 성별
분절 텍스트 문장이 사용자 정의 데이터 세트 세그먼트에 속하는 경우 여기에 나열됩니다.
문장 텍스트 오디오의 추정된 필사본
찬성 스칼라 int32 오디오가 텍스트와 일치한다고 말한 사람의 수
목소리 오디오 (없음,) int64

common_voice/en(기본 구성)

  • 구성 설명 : 언어 코드: en

  • 다운로드 크기 : 56.45 GiB

  • 데이터세트 크기 : 2.79 TiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 16,164
'test' 16,164
'train' 564,337
'validation' 1,224,864

common_voice/ab

  • 구성 설명 : 언어 코드: ab

  • 다운로드 크기 : 39.14 MiB

  • 데이터 세트 크기 : 133.24 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 9
'train' 22
'validation' 31

common_voice/ar

  • 구성 설명 : 언어 코드: ar

  • 다운로드 크기 : 1.64 GiB

  • 데이터세트 크기 : 67.16 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 7,517
'test' 7,622
'train' 14,227
'validation' 43,291

common_voice/as

  • 구성 설명 : 언어 코드: as

  • 다운로드 크기 : 21.20 MiB

  • 데이터세트 크기 : 1.65 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 124
'test' 110
'train' 270
'validation' 504

common_voice/br

  • 구성 설명 : 언어 코드: br

  • 다운로드 크기 : 443.72 MiB

  • 데이터세트 크기 : 13.46 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 1,997
'test' 2,087
'train' 2,780
'validation' 8,560

common_voice/ca

  • 구성 설명 : 언어 코드: ca

  • 다운로드 크기 : 19.32 GiB

  • 데이터세트 크기 : 1.19 TiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 15,724
'test' 15,724
'train' 285,584
'validation' 416,701

common_voice/cnh

  • 구성 설명 : 언어 코드: cnh

  • 다운로드 크기 : 153.86 MiB

  • 데이터세트 크기 : 5.12 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 756
'test' 752
'train' 807
'validation' 2,432

common_voice/cs

  • 구성 설명 : 언어 코드: cs

  • 다운로드 크기 : 1.18 GiB

  • 데이터세트 크기 : 56.89 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 4,118
'test' 4,144
'train' 5,655
'validation' 30,431

common_voice/cv

  • 구성 설명 : 언어 코드: cv

  • 다운로드 크기 : 418.98 MiB

  • 데이터세트 크기 : 8.10 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 818
'test' 788
'train' 931
'validation' 3,496

common_voice/cy

  • 구성 설명 : 언어 코드: cy

  • 다운로드 크기 : 3.20 GiB

  • 데이터세트 크기 : 128.68 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 4,776
'test' 4,820
'train' 6,839
'validation' 72,984

common_voice/de

  • 구성 설명 : 언어 코드: de

  • 다운로드 크기 : 21.68 GiB

  • 데이터세트 크기 : 1.29 TiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 15,588
'test' 15,588
'train' 246,525
'validation' 565,186

common_voice/dv

  • 구성 설명 : 언어 코드: dv

  • 다운로드 크기 : 515.45 MiB

  • 데이터세트 크기 : 31.59 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 2,077
'test' 2,202
'train' 2,680
'validation' 11,866

common_voice/el

  • 구성 설명 : 언어 코드: el

  • 다운로드 크기 : 363.89 MiB

  • 데이터세트 크기 : 14.62 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 1,401
'test' 1,522
'train' 2,316
'validation' 5,996

common_voice/eo

  • 구성 설명 : 언어 코드: eo

  • 다운로드 크기 : 2.69 GiB

  • 데이터세트 크기 : 167.14 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 8,987
'test' 8,969
'train' 19,587
'validation' 58,094

common_voice/es

  • 구성 설명 : 언어 코드: es

  • 다운로드 크기 : 15.08 GiB

  • 데이터세트 크기 : 684.66 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 15,089
'test' 15,089
'train' 161,813
'validation' 236,314

common_voice/et

  • 구성 설명 : 언어 코드: et

  • 다운로드 크기 : 731.63 MiB

  • 데이터세트 크기 : 37.95 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 2,507
'test' 2,509
'train' 2,966
'validation' 10,683

common_voice/eu

  • 구성 설명 : 언어 코드: eu

  • 다운로드 크기 : 3.41 GiB

  • 데이터세트 크기 : 127.60 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 5,172
'test' 5,172
'train' 7,505
'validation' 63,009

common_voice/fa

  • 구성 설명 : 언어 코드: fa

  • 다운로드 크기 : 8.27 GiB

  • 데이터세트 크기 : 328.61 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 5,213
'test' 5,213
'train' 7,593
'validation' 251,659

common_voice/fi

  • 구성 설명 : 언어 코드: fi

  • 다운로드 크기 : 47.57 MiB

  • 데이터세트 크기 : 3.41 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 415
'test' 428
'train' 460
'validation' 1,305

common_voice/fr

  • 구성 설명 : 언어 코드: fr

  • 다운로드 크기 : 17.82 GiB

  • 데이터세트 크기 : 1.17 TiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 15,763
'test' 15,763
'train' 298,982
'validation' 461,004

common_voice/fy-NL

  • 구성 설명 : 언어 코드: fy-NL

  • 다운로드 크기 : 1.15 GiB

  • 데이터세트 크기 : 29.93 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 2,790
'test' 3,020
'train' 3,927
'validation' 10,495

common_voice/ga-IE

  • 구성 설명 : 언어 코드: ga-IE

  • 다운로드 크기 : 149.30 MiB

  • 데이터세트 크기 : 5.11 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 497
'test' 506
'train' 541
'validation' 3,352

common_voice/hi

  • 구성 설명 : 언어 코드: hi

  • 다운로드 크기 : 20.43 MiB

  • 데이터세트 크기 : 1.15 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 135
'test' 127
'train' 157
'validation' 419

common_voice/hsb

  • 구성 설명 : 언어 코드: hsb

  • 다운로드 크기 : 75.69 MiB

  • 데이터세트 크기 : 5.67 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 172
'test' 387
'train' 808
'validation' 1,367

common_voice/후

  • 구성 설명 : 언어 코드: hu

  • 다운로드 크기 : 231.51 MiB

  • 데이터세트 크기 : 17.07 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 1,434
'test' 1,649
'train' 3,348
'validation' 6,457

common_voice/ia

  • 구성 설명 : 언어 코드: ia

  • 다운로드 크기 : 216.01 MiB

  • 데이터세트 크기 : 14.99 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 1,601
'test' 899
'train' 3,477
'validation' 5,978

common_voice/id

  • 구성 설명 : 언어 코드: id

  • 다운로드 크기 : 453.87 MiB

  • 데이터세트 크기 : 17.20 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 1,835
'test' 1,844
'train' 2,130
'validation' 8,696

common_voice/it

  • 구성 설명 : 언어 코드: it

  • 다운로드 크기 : 5.20 GiB

  • 데이터세트 크기 : 316.38 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 12,928
'test' 12,928
'train' 58,015
'validation' 102,579

common_voice/ja

  • 구성 설명 : 언어 코드: ja

  • 다운로드 크기 : 145.80 MiB

  • 데이터세트 크기 : 6.83 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 586
'test' 632
'train' 722
'validation' 3,072

common_voice/카

  • 구성 설명 : 언어 코드: ka

  • 다운로드 크기 : 99.45 MiB

  • 데이터세트 크기 : 7.51 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 527
'test' 656
'train' 1,058
'validation' 2,275

common_voice/kab

  • 구성 설명 : 언어 코드: kab

  • 다운로드 크기 : 15.99 GiB

  • 데이터세트 크기 : 718.51 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 14,622
'test' 14,622
'train' 120,530
'validation' 573,718

common_voice/ky

  • 구성 설명 : 언어 코드: ky

  • 다운로드 크기 : 552.60 MiB

  • 데이터세트 크기 : 18.70 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 1,511
'test' 1,503
'train' 1,955
'validation' 9,236

common_voice/lg

  • 구성 설명 : 언어 코드: lg

  • 다운로드 크기 : 198.55 MiB

  • 데이터세트 크기 : 6.65 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 384
'test' 584
'train' 1,250
'validation' 2,220

common_voice/lt

  • 구성 설명 : 언어 코드: lt

  • 다운로드 크기 : 129.03 MiB

  • 데이터세트 크기 : 4.79 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 244
'test' 466
'train' 931
'validation' 1,644

common_voice/lv

  • 구성 설명 : 언어 코드: lv

  • 다운로드 크기 : 198.66 MiB

  • 데이터세트 크기 : 13.07 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 2,002
'test' 1,882
'train' 2,552
'validation' 6,444

common_voice/mn

  • 구성 설명 : 언어 코드: mn

  • 다운로드 크기 : 463.84 MiB

  • 데이터세트 크기 : 22.09 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 1,837
'test' 1,862
'train' 2,183
'validation' 7,487

common_voice/mt

  • 구성 설명 : 언어 코드: mt

  • 다운로드 크기 : 405.42 MiB

  • 데이터세트 크기 : 15.09 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 1,516
'test' 1,617
'train' 2,036
'validation' 5,747

common_voice/nl

  • 구성 설명 : 언어 코드: nl

  • 다운로드 크기 : 1.62 GiB

  • 데이터세트 크기 : 90.20 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 4,938
'test' 5,708
'train' 9,460
'validation' 52,488

common_voice/또는

  • 구성 설명 : 언어 코드: 또는

  • 다운로드 크기 : 189.85 MiB

  • 데이터세트 크기 : 1.97 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 129
'test' 98
'train' 388
'validation' 615

common_voice/pa-IN

  • 구성 설명 : 언어 코드: pa-IN

  • 다운로드 크기 : 66.52 MiB

  • 데이터세트 크기 : 1.03 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 44
'test' 116
'train' 211
'validation' 371

common_voice/pl

  • 구성 설명 : 언어 코드: pl

  • 다운로드 크기 : 3.29 GiB

  • 데이터세트 크기 : 141.06 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 5,153
'test' 5,153
'train' 7,468
'validation' 90,791

common_voice/pt

  • 구성 설명 : 언어 코드: pt

  • 다운로드 크기 : 1.59 GiB

  • 데이터세트 크기 : 75.64 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 4,592
'test' 4,641
'train' 6,514
'validation' 41,584

common_voice/rm-sursilv

  • 구성 설명 : 언어 코드: rm-sursilv

  • 다운로드 크기 : 263.17 MiB

  • 데이터세트 크기 : 12.31 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 1,205
'test' 1,194
'train' 1,384
'validation' 3,783

common_voice/rm-밸러더

  • 구성 설명 : 언어 코드: rm-vallader

  • 다운로드 크기 : 103.11 MiB

  • 데이터세트 크기 : 4.89 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 357
'test' 378
'train' 574
'validation' 1,316

common_voice/ro

  • 구성 설명 : 언어 코드: ro

  • 다운로드 크기 : 249.84 MiB

  • 데이터세트 크기 : 14.54 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 858
'test' 1,778
'train' 3,399
'validation' 6,039

common_voice/ru

  • 구성 설명 : 언어 코드: ru

  • 다운로드 크기 : 3.40 GiB

  • 데이터세트 크기 : 175.04 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 7,963
'test' 8,007
'train' 15,481
'validation' 74,256

common_voice/rw

  • 구성 설명 : 언어 코드: rw

  • 다운로드 크기 : 39.62 GiB

  • 데이터세트 크기 : 2.18 TiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 15,032
'test' 15,724
'train' 515,197
'validation' 832,929

common_voice/sah

  • 구성 설명 : 언어 코드: sah

  • 다운로드 크기 : 172.85 MiB

  • 데이터세트 크기 : 9.42 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 405
'test' 757
'train' 1,442
'validation' 2,606

common_voice/sl

  • 구성 설명 : 언어 코드: sl

  • 다운로드 크기 : 212.43 MiB

  • 데이터세트 크기 : 9.67 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 556
'test' 881
'train' 2,038
'validation' 4,669

common_voice/sv-SE

  • 구성 설명 : 언어 코드: sv-SE

  • 다운로드 크기 : 401.91 MiB

  • 데이터세트 크기 : 18.27 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 2,019
'test' 2,027
'train' 2,331
'validation' 12,552

common_voice/ta

  • 구성 설명 : 언어 코드: ta

  • 다운로드 크기 : 648.28 MiB

  • 데이터세트 크기 : 24.06 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 1,779
'test' 1,781
'train' 2,009
'validation' 12,652

common_voice/th

  • 구성 설명 : 언어 코드: th

  • 다운로드 크기 : 325.49 MiB

  • 데이터세트 크기 : 18.32 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 1,922
'test' 2,188
'train' 2,917
'validation' 7,028

common_voice/tr

  • 구성 설명 : 언어 코드: tr

  • 다운로드 크기 : 592.09 MiB

  • 데이터세트 크기 : 28.21 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 1,647
'test' 1,647
'train' 1,831
'validation' 18,685

common_voice/tt

  • 구성 설명 : 언어 코드: tt

  • 다운로드 크기 : 741.15 MiB

  • 데이터세트 크기 : 46.85 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 2,127
'test' 4,485
'train' 11,211
'validation' 25,781

common_voice/uk

  • 구성 설명 : 언어 코드: uk

  • 다운로드 크기 : 1.13 GiB

  • 데이터세트 크기 : 49.66 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 3,236
'test' 3,235
'train' 4,035
'validation' 22,337

common_voice/vi

  • 구성 설명 : 언어 코드: vi

  • 다운로드 크기 : 49.52 MiB

  • 데이터세트 크기 : 1.47 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 200
'test' 198
'train' 221
'validation' 619

common_voice/vot

  • 구성 설명 : 언어 코드: vot

  • 다운로드 크기 : 7.43 MiB

  • 데이터 세트 크기 : 11.39 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train'
'validation'

common_voice/zh-CN

  • 구성 설명 : 언어 코드: zh-CN

  • 다운로드 크기 : 2.03 GiB

  • 데이터세트 크기 : 122.54 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 8,743
'test' 8,760
'train' 18,541
'validation' 36,405

common_voice/zh-홍콩

  • 구성 설명 : 언어 코드: zh-HK

  • 다운로드 크기 : 2.58 GiB

  • 데이터세트 크기 : 78.80 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 5,172
'test' 5,172
'train' 7,506
'validation' 41,835

common_voice/zh-TW

  • 구성 설명 : 언어 코드: zh-TW

  • 다운로드 크기 : 2.03 GiB

  • 데이터세트 크기 : 69.06 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'dev' 2,895
'test' 2,895
'train' 3,507
'validation' 61,232