speakn_digit

با مجموعه‌ها، منظم بمانید ذخیره و دسته‌بندی محتوا براساس اولویت‌های شما.

  • توضیحات :

مجموعه داده صوتی رایگان از ارقام گفتاری. به MNIST برای صدا فکر کنید.

یک مجموعه داده ساده صوتی/گفتاری شامل ضبط ارقام گفتاری در فایل‌های wav با فرکانس 8 کیلوهرتز. ضبط ها به گونه ای بریده شده اند که در ابتدا و انتهای آن تقریباً حداقل سکوت را داشته باشند.

5 بلندگو
2500 ضبط (50 عدد از هر رقم در هر بلندگو)
تلفظ های انگلیسی

فایل‌ها در قالب زیر نام‌گذاری می‌شوند: {digitLabel} {speakerName} {index}.wav

شکاف مثال ها
'train' 2500
  • ساختار ویژگی :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
سمعی سمعی (هیچ یک،) int64
صدا/نام فایل متن رشته
برچسب ClassLabel int64
  • نقل قول :
@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}