此页面由 Cloud Translation API 翻译。
Switch to English

tfds.download.DownloadManager

GitHub上查看源代码

管理文件的下载和提取,以及缓存。

下载的文件缓存下download_dir 。下载文件的文件名遵循模式 “{sanitized_url} {content_checksum} {}分机”。如: 'cs.toronto.edu_kriz_cifar-100-pythonJDF [...] I.tar.gz'。

当正在下载的文件,它被放置成遵循类似但不同的图案的目录:“{sanitized_url} {url_checksum}的.tmp {UUID}。”。

当文件被下载,在它旁边创造了一个“{fname}里.INFO.json”文件。这个INFO文件包含以下信息:{ “dataset_names”:[ “NAME1”, “NAME2”], “网址”:[ “HTTP://url.of/downloaded_file”]}

提取的文件/显示目录存储下extract_dir 。文件名或目录名是相同的原始名称,用萃取法前缀。例如, “{} EXTRACT_DIR /TAR_GZ.cs.toronto.edu_kriz_cifar-100-pythonJDF [...] I.tar.gz”。

函数成员接受任一普通值,或包裹成列表或字典的值。给人一种数据结构的并行下载。

使用示例:

 # Sequential download: str -> str
train_dir = dl_manager.download_and_extract('https://abc.org/train.tar.gz')
test_dir = dl_manager.download_and_extract('https://abc.org/test.tar.gz')

# Parallel download: list -> list
image_files = dl_manager.download(
    ['https://a.org/1.jpg', 'https://a.org/2.jpg', ...])

# Parallel download: dict -> dict
data_dirs = dl_manager.download_and_extract({
   'train': 'https://abc.org/train.zip',
   'test': 'https://abc.org/test.zip',
})
data_dirs['train']
data_dirs['test']
 

有关下载/提取更多的定制(例如:密码,output_name中,...),你可以通过一个tfds.download.Resource作为参数。

download_dir 路径目录中下载存储。
extract_dir 目录的路径,其中的文物被提取。
manual_dir 路径手动下载/提取的数据目录。
manual_dir_instructions 关于如何准备manual_dir的内容用于该数据集的人类可读指令。
dataset_name 名称数据集的这个实例将被用于。如果提供,下载包含它们用于该数据集。
force_download 如果真,总是[重新]下载。
force_extraction 如果真,总是[重新]提取物。
force_checksums_validation 如果真,抛出一个错误,如果一个URL没有校验。
register_checksums 如果真,DL校验不检查,而是存储到文件中。

downloaded_size 返回下载的文件的总大小。
manual_dir 返回包含手动提取的数据的目录。
register_checksums 返回是否校验和被计算并记录到文件中。

方法

download

查看源代码

下载指定网址(或多个)。

ARGS
url_or_urls URL或list / dict可下载的网址和提取物。每个URL可以是strtfds.download.Resource

返回
downloaded_pa​​th(S): str ,所下载的路径相匹配的给定的输入url_or_urls。

download_and_extract

查看源代码

下载和提取给出url_or_urls。

大约相当于:

 extracted_paths = dl_manager.extract(dl_manager.download(url_or_urls))
 

ARGS
url_or_urls URL或list / dict可下载的网址和提取物。每个URL可以是strtfds.download.Resource

如果没有明确指定Resource ,提取方法,将自动从下载的文件名推导。

返回
extracted_pa​​th(S): str给定的URL(多个),提取的路径。

download_checksums

查看源代码

下载校验从给定的URL文件,并将其添加到注册表中。

download_kaggle_data

查看源代码

对于给定数据集Kaggle竞争或下载数据。

ARGS
competition_or_dataset 数据集名称( zillow/zecon )或竞争的域名( titanic

返回
将下载的文件的路径。

extract

查看源代码

提取给定的路径(S)。

ARGS
path_or_paths 路径或list / dict来提取文件的路径。每个路径可以是strtfds.download.Resource

如果没有明确指定Resource ,提取方法是从下载的文件名推导。

返回
extracted_pa​​th(S): str ,所提取的路径相匹配的给定的输入path_or_paths。

iter_archive

查看源代码

iterator返回在文件归档中。

重要提示 :因为它们产生调用者应该读取文件。顺序读出缓慢。

ARGS
resource 路径存档或tfds.download.Resource

返回
发生器产生的元组(path_within_archive,file_obj)。