ljspeech

  • বর্ণনা :

এটি একটি পাবলিক ডোমেন স্পিচ ডেটাসেট যাতে 7টি নন-ফিকশন বই থেকে একটি একক স্পিকার পড়ার অনুচ্ছেদের 13,100টি ছোট অডিও ক্লিপ রয়েছে। প্রতিটি ক্লিপের জন্য একটি প্রতিলিপি প্রদান করা হয়। ক্লিপগুলির দৈর্ঘ্য 1 থেকে 10 সেকেন্ডের মধ্যে পরিবর্তিত হয় এবং মোট দৈর্ঘ্য প্রায় 24 ঘন্টা থাকে।

পাঠ্যগুলি 1884 এবং 1964 সালের মধ্যে প্রকাশিত হয়েছিল এবং সর্বজনীন ডোমেনে রয়েছে। অডিওটি 2016-17 সালে LibriVox প্রকল্প দ্বারা রেকর্ড করা হয়েছিল এবং এটি সর্বজনীন ডোমেনেও রয়েছে।

বিভক্ত উদাহরণ
'train' 13,100
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'id': string,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
    'text_normalized': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
আইডি টেনসর স্ট্রিং
বক্তৃতা শ্রুতি (কোনটিই নয়,) int16
পাঠ্য পাঠ্য স্ট্রিং
টেক্সট_নর্মালাইজড পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}