صدای مشترک

  • توضیحات :

مجموعه داده های صوتی مشترک موزیلا

FeaturesDict({
    'accent': Text(shape=(), dtype=string),
    'age': Text(shape=(), dtype=string),
    'client_id': Text(shape=(), dtype=string),
    'downvotes': Scalar(shape=(), dtype=int32),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'segment': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
    'upvotes': Scalar(shape=(), dtype=int32),
    'voice': Audio(shape=(None,), dtype=int64),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
لهجه متن رشته لهجه گوینده، به https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts مراجعه کنید
سن متن رشته سطل سنی گوینده (به عنوان مثال نوجوانان یا دهه چهل)، به https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts مراجعه کنید.
شناسه مشتری متن رشته UUID هش شده یک کاربر مشخص
رای منفی اسکالر int32 تعداد افرادی که گفتند صدا با متن مطابقت ندارد
جنسیت ClassLabel int64 جنسیت گوینده
بخش متن رشته اگر جمله متعلق به یک بخش مجموعه داده سفارشی باشد، در اینجا فهرست می شود
جمله متن رشته رونویسی فرضی صدا
رای موافق اسکالر int32 تعداد افرادی که گفتند صدا با متن مطابقت دارد
صدا سمعی (هیچ یک،) int64

common_voice/en (پیکربندی پیش فرض)

  • توضیحات پیکربندی : کد زبان: en

  • حجم دانلود : 56.45 GiB

  • اندازه مجموعه داده : 2.79 TiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 16,164
'test' 16,164
'train' 564,337
'validation' 1,224,864

صدای مشترک/ab

  • توضیحات پیکربندی : کد زبان: ab

  • حجم دانلود : 39.14 MiB

  • حجم مجموعه داده : 133.24 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 9
'train' 22
'validation' 31

صدای مشترک/ar

  • توضیحات پیکربندی : کد زبان: ar

  • حجم دانلود : 1.64 GiB

  • حجم مجموعه داده : 67.16 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 7,517
'test' 7,622
'train' 14,227
'validation' 43,291

صدای مشترک/عنوان

  • توضیحات پیکربندی : کد زبان: as

  • حجم دانلود : 21.20 MiB

  • حجم مجموعه داده : 1.65 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 124
'test' 110
'train' 270
'validation' 504

صدای مشترک/بر

  • توضیحات پیکربندی : کد زبان: br

  • حجم دانلود : 443.72 MiB

  • حجم مجموعه داده : 13.46 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 1997
'test' 2087
'train' 2780
'validation' 8560

صدای مشترک/حدود

  • توضیحات پیکربندی : کد زبان: حدود

  • حجم دانلود : 19.32 GiB

  • اندازه مجموعه داده : 1.19 TiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 15724
'test' 15724
'train' 285584
'validation' 416701

common_voice/cnh

  • توضیحات پیکربندی : کد زبان: cnh

  • حجم دانلود : 153.86 MiB

  • حجم مجموعه داده : 5.12 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 756
'test' 752
'train' 807
'validation' 2,432

common_voice/cs

  • توضیحات پیکربندی : کد زبان: cs

  • حجم دانلود : 1.18 GiB

  • حجم مجموعه داده : 56.89 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 4,118
'test' 4,144
'train' 5,655
'validation' 30,431

common_voice/cv

  • توضیحات پیکربندی : کد زبان: cv

  • حجم دانلود : 418.98 MiB

  • حجم مجموعه داده : 8.10 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 818
'test' 788
'train' 931
'validation' 3,496

صدای مشترک/سی

  • توضیحات پیکربندی : کد زبان: cy

  • حجم دانلود : 3.20 GiB

  • حجم مجموعه داده : 128.68 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 4776
'test' 4820
'train' 6839
'validation' 72984

صدای مشترک/de

  • توضیحات پیکربندی : کد زبان: de

  • حجم دانلود : 21.68 GiB

  • اندازه مجموعه داده : 1.29 TiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 15,588
'test' 15,588
'train' 246,525
'validation' 565,186

صدای مشترک/دی وی

  • توضیحات پیکربندی : کد زبان: dv

  • حجم دانلود : 515.45 MiB

  • حجم مجموعه داده : 31.59 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 2077
'test' 2202
'train' 2680
'validation' 11,866

صدای مشترک/ال

  • توضیحات پیکربندی : کد زبان: el

  • حجم دانلود : 363.89 MiB

  • حجم مجموعه داده : 14.62 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 1,401
'test' 1,522
'train' 2,316
'validation' 5996

common_voice/eo

  • توضیحات پیکربندی : کد زبان: eo

  • حجم دانلود : 2.69 GiB

  • حجم مجموعه داده : 167.14 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 8,987
'test' 8969
'train' 19587
'validation' 58,094

صدای مشترک/es

  • توضیحات پیکربندی : کد زبان: es

  • حجم دانلود : 15.08 GiB

  • حجم مجموعه داده : 684.66 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 15,089
'test' 15,089
'train' 161,813
'validation' 236,314

common_voice/et

  • توضیحات پیکربندی : کد زبان: et

  • حجم دانلود : 731.63 MiB

  • حجم مجموعه داده : 37.95 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 2,507
'test' 2509
'train' 2966
'validation' 10683

common_voice/eu

  • توضیحات پیکربندی : کد زبان: eu

  • حجم دانلود : 3.41 GiB

  • حجم مجموعه داده : 127.60 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 5,172
'test' 5,172
'train' 7505
'validation' 63,009

صدای مشترک/فا

  • توضیحات پیکربندی : کد زبان: fa

  • حجم دانلود : 8.27 GiB

  • حجم مجموعه داده : 328.61 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 5,213
'test' 5,213
'train' 7593
'validation' 251,659

صدای مشترک/فی

  • توضیحات پیکربندی : کد زبان: fi

  • حجم دانلود : 47.57 MiB

  • حجم مجموعه داده : 3.41 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 415
'test' 428
'train' 460
'validation' 1,305

صدای مشترک/فر

  • توضیحات پیکربندی : کد زبان: fr

  • حجم دانلود : 17.82 GiB

  • اندازه مجموعه داده : 1.17 TiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 15763
'test' 15763
'train' 298,982
'validation' 461,004

common_voice/fy-NL

  • توضیحات پیکربندی : کد زبان: fy-NL

  • حجم دانلود : 1.15 GiB

  • حجم مجموعه داده : 29.93 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 2790
'test' 3020
'train' 3,927
'validation' 10,495

common_voice/ga-IE

  • توضیحات پیکربندی : کد زبان: ga-IE

  • حجم دانلود : 149.30 MiB

  • حجم مجموعه داده : 5.11 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 497
'test' 506
'train' 541
'validation' 3,352

صدای مشترک/سلام

  • توضیحات پیکربندی : کد زبان: سلام

  • حجم دانلود : 20.43 MiB

  • حجم مجموعه داده : 1.15 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 135
'test' 127
'train' 157
'validation' 419

common_voice/hsb

  • توضیحات پیکربندی : کد زبان: hsb

  • حجم دانلود : 75.69 MiB

  • حجم مجموعه داده : 5.67 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 172
'test' 387
'train' 808
'validation' 1,367

صدای مشترک/هو

  • توضیحات پیکربندی : کد زبان: hu

  • حجم دانلود : 231.51 MiB

  • حجم مجموعه داده : 17.07 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 1,434
'test' 1649
'train' 3,348
'validation' 6,457

common_voice/ia

  • توضیحات پیکربندی : کد زبان: ia

  • حجم دانلود : 216.01 MiB

  • حجم مجموعه داده : 14.99 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 1601
'test' 899
'train' 3,477
'validation' 5,978

common_voice/id

  • توضیحات پیکربندی : کد زبان: شناسه

  • حجم دانلود : 453.87 MiB

  • حجم مجموعه داده : 17.20 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 1,835
'test' 1,844
'train' 2,130
'validation' 8696

صدای مشترک/آن

  • توضیحات پیکربندی : کد زبان: آن

  • حجم دانلود : 5.20 GiB

  • حجم مجموعه داده : 316.38 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 12928
'test' 12928
'train' 58,015
'validation' 102,579

صدای مشترک/جا

  • توضیحات پیکربندی : کد زبان: ja

  • حجم دانلود : 145.80 MiB

  • حجم مجموعه داده : 6.83 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 586
'test' 632
'train' 722
'validation' 3,072

صدای مشترک/کا

  • توضیحات پیکربندی : کد زبان: ka

  • حجم دانلود : 99.45 MiB

  • حجم مجموعه داده : 7.51 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 527
'test' 656
'train' 1058
'validation' 2275

صدای مشترک/کاب

  • توضیحات پیکربندی : کد زبان: kab

  • حجم دانلود : 15.99 GiB

  • حجم مجموعه داده : 718.51 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 14622
'test' 14622
'train' 120,530
'validation' 573,718

صدای مشترک/ky

  • توضیحات پیکربندی : کد زبان: ky

  • حجم دانلود : 552.60 MiB

  • حجم مجموعه داده : 18.70 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 1511
'test' 1,503
'train' 1,955
'validation' 9236

common_voice/lg

  • توضیحات پیکربندی : کد زبان: lg

  • حجم دانلود : 198.55 MiB

  • حجم مجموعه داده : 6.65 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 384
'test' 584
'train' 1250
'validation' 2220

common_voice/lt

  • توضیحات پیکربندی : کد زبان: lt

  • حجم دانلود : 129.03 MiB

  • حجم مجموعه داده : 4.79 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 244
'test' 466
'train' 931
'validation' 1,644

common_voice/lv

  • توضیحات پیکربندی : کد زبان: lv

  • حجم دانلود : 198.66 MiB

  • حجم مجموعه داده : 13.07 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 2002
'test' 1,882
'train' 2,552
'validation' 6,444

صدای مشترک/من

  • توضیحات پیکربندی : کد زبان: mn

  • حجم دانلود : 463.84 MiB

  • حجم مجموعه داده : 22.09 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 1,837
'test' 1,862
'train' 2,183
'validation' 7,487

مشترک_صدا/mt

  • توضیحات پیکربندی : کد زبان: mt

  • حجم دانلود : 405.42 MiB

  • حجم مجموعه داده : 15.09 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 1,516
'test' 1,617
'train' 2036
'validation' 5,747

common_voice/nl

  • توضیحات پیکربندی : کد زبان: nl

  • حجم دانلود : 1.62 GiB

  • حجم مجموعه داده : 90.20 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 4,938
'test' 5708
'train' 9,460
'validation' 52,488

صدای مشترک/یا

  • توضیحات پیکربندی : کد زبان: یا

  • حجم دانلود : 189.85 MiB

  • حجم مجموعه داده : 1.97 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 129
'test' 98
'train' 388
'validation' 615

common_voice/pa-IN

  • توضیحات پیکربندی : کد زبان: pa-IN

  • حجم دانلود : 66.52 MiB

  • حجم مجموعه داده : 1.03 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 44
'test' 116
'train' 211
'validation' 371

common_voice/pl

  • توضیحات پیکربندی : کد زبان: pl

  • حجم دانلود : 3.29 GiB

  • حجم مجموعه داده : 141.06 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 5,153
'test' 5,153
'train' 7,468
'validation' 90,791

مشترک_صدا/pt

  • توضیحات پیکربندی : کد زبان: pt

  • حجم دانلود : 1.59 GiB

  • حجم مجموعه داده : 75.64 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 4592
'test' 4641
'train' 6514
'validation' 41584

صدای مشترک/rm-sursilv

  • توضیحات پیکربندی : کد زبان: rm-sursilv

  • حجم دانلود : 263.17 MiB

  • حجم مجموعه داده : 12.31 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 1205
'test' 1,194
'train' 1,384
'validation' 3783

صدای مشترک/rm-valader

  • توضیحات پیکربندی : کد زبان: rm-vallader

  • حجم دانلود : 103.11 MiB

  • حجم مجموعه داده : 4.89 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 357
'test' 378
'train' 574
'validation' 1,316

صدای مشترک/رو

  • توضیحات پیکربندی : کد زبان: ro

  • حجم دانلود : 249.84 MiB

  • حجم مجموعه داده : 14.54 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 858
'test' 1778
'train' 3,399
'validation' 6039

common_voice/ru

  • توضیحات پیکربندی : کد زبان: ru

  • حجم دانلود : 3.40 GiB

  • حجم مجموعه داده : 175.04 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 7,963
'test' 8007
'train' 15,481
'validation' 74,256

common_voice/rw

  • توضیحات پیکربندی : کد زبان: rw

  • حجم دانلود : 39.62 GiB

  • اندازه مجموعه داده : 2.18 TiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 15032
'test' 15724
'train' 515,197
'validation' 832,929

صدای مشترک/صح

  • توضیحات پیکربندی : کد زبان: sah

  • حجم دانلود : 172.85 MiB

  • حجم مجموعه داده : 9.42 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 405
'test' 757
'train' 1,442
'validation' 2606

common_voice/sl

  • توضیحات پیکربندی : کد زبان: sl

  • حجم دانلود : 212.43 MiB

  • حجم مجموعه داده : 9.67 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 556
'test' 881
'train' 2038
'validation' 4669

common_voice/sv-SE

  • توضیحات پیکربندی : کد زبان: sv-SE

  • حجم دانلود : 401.91 MiB

  • حجم مجموعه داده : 18.27 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 2019
'test' 2027
'train' 2,331
'validation' 12552

صدای مشترک/تا

  • توضیحات پیکربندی : کد زبان: ta

  • حجم دانلود : 648.28 MiB

  • حجم مجموعه داده : 24.06 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 1779
'test' 1781
'train' 2009
'validation' 12652

صدای مشترک/ام

  • توضیحات پیکربندی : کد زبان: th

  • حجم دانلود : 325.49 MiB

  • حجم مجموعه داده : 18.32 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 1,922
'test' 2,188
'train' 2,917
'validation' 7,028

common_voice/tr

  • توضیحات پیکربندی : کد زبان: tr

  • حجم دانلود : 592.09 MiB

  • حجم مجموعه داده : 28.21 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 1,647
'test' 1,647
'train' 1,831
'validation' 18685

صدای مشترک/tt

  • توضیحات پیکربندی : کد زبان: tt

  • حجم دانلود : 741.15 MiB

  • حجم مجموعه داده : 46.85 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 2,127
'test' 4,485
'train' 11,211
'validation' 25781

common_voice/uk

  • توضیحات پیکربندی : کد زبان: انگلستان

  • حجم دانلود : 1.13 GiB

  • حجم مجموعه داده : 49.66 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 3,236
'test' 3,235
'train' 4035
'validation' 22,337

common_voice/vi

  • توضیحات پیکربندی : کد زبان: vi

  • حجم دانلود : 49.52 MiB

  • حجم مجموعه داده : 1.47 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 200
'test' 198
'train' 221
'validation' 619

صدای مشترک/رای

  • توضیحات پیکربندی : کد زبان: vot

  • حجم دانلود : 7.43 MiB

  • حجم مجموعه داده : 11.39 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 3
'validation' 3

common_voice/zh-CN

  • توضیحات پیکربندی : کد زبان: zh-CN

  • حجم دانلود : 2.03 GiB

  • حجم مجموعه داده : 122.54 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 8743
'test' 8760
'train' 18541
'validation' 36,405

common_voice/zh-HK

  • توضیحات پیکربندی : کد زبان: zh-HK

  • حجم دانلود : 2.58 GiB

  • حجم مجموعه داده : 78.80 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 5,172
'test' 5,172
'train' 7506
'validation' 41,835

common_voice/zh-TW

  • توضیحات پیکربندی : کد زبان: zh-TW

  • حجم دانلود : 2.03 GiB

  • حجم مجموعه داده : 69.06 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 2,895
'test' 2,895
'train' 3,507
'validation' 61232