الرقم المنطوق

الوصف :

مجموعة بيانات صوتية مجانية من الأرقام المنطوقة. فكر في MNIST للصوت.

مجموعة بيانات صوتية / كلام بسيطة تتكون من تسجيلات للأرقام المنطوقة في ملفات wav بسرعة 8 كيلو هرتز. يتم قطع التسجيلات بحيث يكون لها أدنى حد من الصمت في البدايات والنهايات.

5 مكبرات صوت
2500 تسجيل (50 من كل رقم لكل مكبر صوت)
نطق اللغة الإنجليزية

تمت تسمية الملفات بالتنسيق التالي: {digitLabel} {speakerName} {index} .wav

وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية https://github.com/Jakobovski/free-spoken-digit-dataset
كود المصدر : tfds.datasets.spoken_digit.Builder
إصدارات :
- 1.0.9 (افتراضي): لا توجد ملاحظات حول الإصدار.
حجم التحميل : 11.42 MiB
حجم مجموعة البيانات : 45.68 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :

انشق، مزق	أمثلة
`'train'`	2500

هيكل الميزة :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})

وثائق الميزة :

ميزة	فصل	شكل	نوع
	الميزات
صوتي	صوتي	(لا أحد،)	int64
الصوت / اسم الملف	نص		سلسلة
ضع الكلمة المناسبة	ClassLabel		int64

المفاتيح الخاضعة للإشراف (راجع المستند as_supervised ): ('audio', 'label')
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):

الاقتباس :

@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}

الرقم المنطوق تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.

الرقم المنطوق