webvid

  • Mô tả :

WebVid là tập dữ liệu quy mô lớn gồm các video ngắn có mô tả bằng văn bản lấy từ web. Các video rất đa dạng và phong phú về nội dung.

WebVid-10M chứa:

10,7M cặp phụ đề video. Tổng số giờ xem video là 52K.

  • Trang chủ : https://m-bain.github.io/webvid-dataset/

  • Mã nguồn : tfds.datasets.webvid.Builder

  • Phiên bản :

    • 1.0.0 (mặc định): Bản phát hành đầu tiên.
  • Kích thước tải xuống : Unknown size

  • Kích thước tập dữ liệu : Unknown size

  • Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Làm theo hướng dẫn tải xuống trong https://m-bain.github.io/webvid-dataset/ để lấy dữ liệu. Đặt các tệp csv và thư mục video trong manual_dir/webvid , sao cho các tệp mp4 được đặt trong manual_dir/webvid/*/*_*/*.mp4 .

Thư mục đầu tiên thường là một thư mục phần tùy ý (để tải xuống từng phần), thư mục thứ hai là thư mục trang (hai số xung quanh dấu gạch dưới), bên trong có một hoặc nhiều tệp mp4.

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không xác định

  • Chia tách :

Tách ra ví dụ
  • Cấu trúc tính năng :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'video': Video(Image(shape=(360, 640, 3), dtype=uint8)),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
đầu đề Chữ sợi dây
nhận dạng Chữ sợi dây
url Chữ sợi dây
băng hình Video(Hình ảnh) (Không, 360, 640, 3) uint8
@misc{bain2021frozen,
      title={Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval},
      author={Max Bain and Arsha Nagrani and Gül Varol and Andrew Zisserman},
      year={2021},
      eprint={2104.00650},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}
,

  • Mô tả :

WebVid là tập dữ liệu quy mô lớn gồm các video ngắn có mô tả bằng văn bản lấy từ web. Các video rất đa dạng và phong phú về nội dung.

WebVid-10M chứa:

10,7M cặp phụ đề video. Tổng số giờ xem video là 52K.

  • Trang chủ : https://m-bain.github.io/webvid-dataset/

  • Mã nguồn : tfds.datasets.webvid.Builder

  • Phiên bản :

    • 1.0.0 (mặc định): Bản phát hành đầu tiên.
  • Kích thước tải xuống : Unknown size

  • Kích thước tập dữ liệu : Unknown size

  • Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Làm theo hướng dẫn tải xuống trong https://m-bain.github.io/webvid-dataset/ để lấy dữ liệu. Đặt các tệp csv và thư mục video trong manual_dir/webvid , sao cho các tệp mp4 được đặt trong manual_dir/webvid/*/*_*/*.mp4 .

Thư mục đầu tiên thường là một thư mục phần tùy ý (để tải xuống từng phần), thư mục thứ hai là thư mục trang (hai số xung quanh dấu gạch dưới), bên trong có một hoặc nhiều tệp mp4.

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không xác định

  • Chia tách :

Tách ra ví dụ
  • Cấu trúc tính năng :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'video': Video(Image(shape=(360, 640, 3), dtype=uint8)),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
đầu đề Chữ sợi dây
nhận dạng Chữ sợi dây
url Chữ sợi dây
băng hình Video(Hình ảnh) (Không, 360, 640, 3) uint8
@misc{bain2021frozen,
      title={Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval},
      author={Max Bain and Arsha Nagrani and Gül Varol and Andrew Zisserman},
      year={2021},
      eprint={2104.00650},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}