librispeech

  • বর্ণনা :

LibriSpeech হল প্রায় 1000 ঘন্টা পঠিত ইংরেজি বক্তৃতা, যার স্যাম্পলিং রেট 16 kHz, ড্যানিয়েল পোভির সহায়তায় ভ্যাসিল প্যানায়োটভ তৈরি করেছেন। ডেটা LibriVox প্রকল্প থেকে পড়া অডিওবুক থেকে প্রাপ্ত করা হয়েছে, এবং সাবধানে সেগমেন্ট এবং সারিবদ্ধ করা হয়েছে.

দ্রুত পড়া এবং ছোট ডেটাসেট আকারের জন্য অলস অডিও ডিকোডিং ব্যবহার করার পরামর্শ দেওয়া হচ্ছে: - tensorflow_io লাইব্রেরি ইনস্টল করুন: pip install tensorflow-io - অলস ডিকোডিং সক্ষম করুন: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

বিভক্ত উদাহরণ
'dev_clean' 2,703
'dev_other' 2,864
'test_clean' 2,620
'test_other' 2,939
'train_clean100' 28,539
'train_clean360' 104,014
'train_other500' 148,688
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
অধ্যায়_আইডি টেনসর int64
আইডি টেনসর স্ট্রিং
স্পিকার_আইডি টেনসর int64
বক্তৃতা শ্রুতি (কোনটিই নয়,) int16
পাঠ্য পাঠ্য স্ট্রিং
  • তত্ত্বাবধানে থাকা কী ( as_supervised doc ): ('speech', 'text')

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/ডিফল্ট (ডিফল্ট কনফিগারেশন)

  • কনফিগার বিবরণ : ডিফল্ট ডেটাসেট।

  • সংস্করণ :

    • 2.1.1 (ডিফল্ট): dtype=tf.int16 দিয়ে স্পিচ ডেটা টাইপ ঠিক করুন।
    • 2.1.2 : 'lazy_decode' কনফিগার যোগ করুন।
  • ডেটাসেটের আকার : 304.47 GiB

  • উদাহরণ ( tfds.as_dataframe ):

librispeech/lazy_decode

  • কনফিগারেশনের বিবরণ : কাঁচা অডিও ডেটাসেট।

  • সংস্করণ :

    • 2.1.1 : dtype=tf.int16 দিয়ে স্পিচ ডেটা টাইপ ঠিক করুন।
    • 2.1.2 (ডিফল্ট): 'lazy_decode' কনফিগার যোগ করুন।
  • ডেটাসেটের আকার : 59.37 GiB

  • উদাহরণ ( tfds.as_dataframe ): অনুপস্থিত।

,

  • বর্ণনা :

LibriSpeech হল প্রায় 1000 ঘন্টা পঠিত ইংরেজি বক্তৃতা, যার স্যাম্পলিং রেট 16 kHz, ড্যানিয়েল পোভির সহায়তায় ভ্যাসিল প্যানায়োটভ তৈরি করেছেন। ডেটা LibriVox প্রকল্প থেকে পড়া অডিওবুক থেকে প্রাপ্ত করা হয়েছে, এবং সাবধানে সেগমেন্ট এবং সারিবদ্ধ করা হয়েছে.

দ্রুত পড়া এবং ছোট ডেটাসেট আকারের জন্য অলস অডিও ডিকোডিং ব্যবহার করার পরামর্শ দেওয়া হচ্ছে: - tensorflow_io লাইব্রেরি ইনস্টল করুন: pip install tensorflow-io - অলস ডিকোডিং সক্ষম করুন: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

বিভক্ত উদাহরণ
'dev_clean' 2,703
'dev_other' 2,864
'test_clean' 2,620
'test_other' 2,939
'train_clean100' 28,539
'train_clean360' 104,014
'train_other500' 148,688
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
অধ্যায়_আইডি টেনসর int64
আইডি টেনসর স্ট্রিং
স্পিকার_আইডি টেনসর int64
বক্তৃতা শ্রুতি (কোনটিই নয়,) int16
পাঠ্য পাঠ্য স্ট্রিং
  • তত্ত্বাবধানে থাকা কী ( as_supervised doc ): ('speech', 'text')

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/ডিফল্ট (ডিফল্ট কনফিগারেশন)

  • কনফিগার বিবরণ : ডিফল্ট ডেটাসেট।

  • সংস্করণ :

    • 2.1.1 (ডিফল্ট): dtype=tf.int16 দিয়ে স্পিচ ডেটা টাইপ ঠিক করুন।
    • 2.1.2 : 'lazy_decode' কনফিগার যোগ করুন।
  • ডেটাসেটের আকার : 304.47 GiB

  • উদাহরণ ( tfds.as_dataframe ):

librispeech/lazy_decode

  • কনফিগারেশনের বিবরণ : কাঁচা অডিও ডেটাসেট।

  • সংস্করণ :

    • 2.1.1 : dtype=tf.int16 দিয়ে স্পিচ ডেটা টাইপ ঠিক করুন।
    • 2.1.2 (ডিফল্ট): 'lazy_decode' কনফিগার যোগ করুন।
  • ডেটাসেটের আকার : 59.37 GiB

  • উদাহরণ ( tfds.as_dataframe ): অনুপস্থিত।