কথ্য_সংখ্যা

  • বর্ণনা :

কথ্য সংখ্যার একটি বিনামূল্যের অডিও ডেটাসেট। অডিও জন্য MNIST চিন্তা করুন.

একটি সাধারণ অডিও/স্পিচ ডেটাসেট যা 8kHz এ wav ফাইলে কথ্য সংখ্যার রেকর্ডিং নিয়ে গঠিত। রেকর্ডিংগুলিকে এমনভাবে ছাঁটাই করা হয়েছে যাতে শুরুতে এবং শেষের দিকে ন্যূনতম নীরবতা থাকে৷

5 স্পিকার
2,500টি রেকর্ডিং (প্রতি স্পিকার প্রতি সংখ্যার 50টি)
ইংরেজি উচ্চারণ

ফাইলগুলিকে নিম্নলিখিত ফর্ম্যাটে নাম দেওয়া হয়েছে: {digitLabel} {speakerName} {index}.wav

বিভক্ত উদাহরণ
'train' 2,500
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
শ্রুতি শ্রুতি (কোনটিই নয়,) int64
অডিও/ফাইলের নাম পাঠ্য স্ট্রিং
লেবেল ক্লাসলেবেল int64
  • উদ্ধৃতি :
@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}