voxceleb

Descripción :

Un conjunto de datos a gran escala para la identificación de hablantes. Estos datos se recopilan de más de 1251 hablantes, con más de 150 000 muestras en total. Esta versión contiene la parte de audio del conjunto de datos voxceleb1.1.

Documentación adicional : Explore en Papers With Code
Página de inicio : http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html
Código fuente : tfds.audio.Voxceleb
Versiones :
- 1.2.1 (predeterminado): Agregar campo youtube_id
Tamaño de la descarga : 4.68 MiB
Tamaño del conjunto de datos : 107.98 GiB
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
manual_dir debe contener el archivo vox_dev_wav.zip. Las instrucciones para descargar este archivo se encuentran en http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html Este conjunto de datos requiere registro.
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Separar	Ejemplos
`'test'`	7,972
`'train'`	134.000
`'validation'`	6,670

Estructura de características :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1252),
    'youtube_id': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
audio	Audio	(Ninguna,)	int64
etiqueta	Etiqueta de clase		int64
youtube_id	Texto		cuerda

Teclas supervisadas (Ver as_supervised ): ('audio', 'label')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):

Cita :

@InProceedings{Nagrani17,
    author       = "Nagrani, A. and Chung, J.~S. and Zisserman, A.",
    title        = "VoxCeleb: a large-scale speaker identification dataset",
    booktitle    = "INTERSPEECH",
    year         = "2017",
}

voxceleb Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

voxceleb