webvid

  • Descripción :

WebVid es un conjunto de datos a gran escala de videos cortos con descripciones textuales provenientes de la web. Los videos son diversos y ricos en su contenido.

WebVid-10M contiene:

10,7 millones de pares de subtítulos de video. 52K horas totales de video.

  • Página de inicio : https://m-bain.github.io/webvid-dataset/

  • Código fuente : tfds.datasets.webvid.Builder

  • Versiones :

    • 1.0.0 (predeterminado): Versión inicial.
  • Tamaño de descarga : Unknown size

  • Tamaño del conjunto de datos : Unknown size

  • Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
    Siga las instrucciones de descarga en https://m-bain.github.io/webvid-dataset/ para obtener los datos. Coloque los archivos csv y los directorios de video en manual_dir/webvid , de modo que los archivos mp4 se coloquen en manual_dir/webvid/*/*_*/*.mp4 .

El primer directorio suele ser un directorio parcial arbitrario (para la descarga fragmentada), el segundo directorio es el directorio de la página (dos números alrededor del guión bajo), dentro del cual hay uno o más archivos mp4.

Dividir Ejemplos
  • Estructura de características :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'video': Video(Image(shape=(360, 640, 3), dtype=uint8)),
})
  • Documentación de características :
Característica Clase Forma Tipo D Descripción
CaracterísticasDict
subtítulo Texto cadena
identificación Texto cadena
URL Texto cadena
video Vídeo (Imagen) (Ninguno, 360, 640, 3) uint8
@misc{bain2021frozen,
      title={Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval},
      author={Max Bain and Arsha Nagrani and Gül Varol and Andrew Zisserman},
      year={2021},
      eprint={2104.00650},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}
,

  • Descripción :

WebVid es un conjunto de datos a gran escala de videos cortos con descripciones textuales provenientes de la web. Los videos son diversos y ricos en su contenido.

WebVid-10M contiene:

10,7 millones de pares de subtítulos de video. 52K horas totales de video.

  • Página de inicio : https://m-bain.github.io/webvid-dataset/

  • Código fuente : tfds.datasets.webvid.Builder

  • Versiones :

    • 1.0.0 (predeterminado): versión inicial.
  • Tamaño de descarga : Unknown size

  • Tamaño del conjunto de datos : Unknown size

  • Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
    Siga las instrucciones de descarga en https://m-bain.github.io/webvid-dataset/ para obtener los datos. Coloque los archivos csv y los directorios de video en manual_dir/webvid , de modo que los archivos mp4 se coloquen en manual_dir/webvid/*/*_*/*.mp4 .

El primer directorio suele ser un directorio parcial arbitrario (para la descarga fragmentada), el segundo directorio es el directorio de la página (dos números alrededor del guión bajo), dentro del cual hay uno o más archivos mp4.

Dividir Ejemplos
  • Estructura de características :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'video': Video(Image(shape=(360, 640, 3), dtype=uint8)),
})
  • Documentación de características :
Característica Clase Forma Tipo D Descripción
CaracterísticasDict
subtítulo Texto cadena
identificación Texto cadena
URL Texto cadena
video Vídeo (Imagen) (Ninguno, 360, 640, 3) uint8
@misc{bain2021frozen,
      title={Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval},
      author={Max Bain and Arsha Nagrani and Gül Varol and Andrew Zisserman},
      year={2021},
      eprint={2104.00650},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}