ljspeech

توضیحات :

این یک مجموعه داده گفتاری دامنه عمومی است که شامل 13100 کلیپ صوتی کوتاه از یک سخنران است که در حال خواندن قطعاتی از 7 کتاب غیرداستانی است. برای هر کلیپ رونویسی ارائه شده است. طول کلیپ ها از 1 تا 10 ثانیه متغیر است و طول کلی آنها تقریباً 24 ساعت است.

این متون بین سال‌های 1884 تا 1964 منتشر شده‌اند و در مالکیت عمومی قرار دارند. این صدا در سال 17-2016 توسط پروژه LibriVox ضبط شده است و همچنین در مالکیت عمومی است.

اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://keithito.com/LJ-Speech-Dataset/
کد منبع : tfds.datasets.ljspeech.Builder
نسخه ها :
- 1.1.1 (پیش فرض): نوع داده گفتار را با dtype=tf.int16 اصلاح کنید.
حجم دانلود : 2.56 GiB
حجم مجموعه داده : 10.73 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :

شکاف	مثال ها
`'train'`	13100

ساختار ویژگی :

FeaturesDict({
    'id': string,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
    'text_normalized': Text(shape=(), dtype=string),
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
شناسه	تانسور		رشته
سخن، گفتار	سمعی	(هیچ یک،)	int16
متن	متن		رشته
text_normalized	متن		رشته

کلیدهای نظارت شده ( به عنوان_سند as_supervised مراجعه کنید): ('text_normalized', 'speech')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}

ljspeech با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

ljspeech