获取ImageNet数据下载的方式

7

我已经通过ImageNet网站http://www.image-net.org/download-images获得了下载图像数据的授权。页面显示如下:

您已被授予通过我们的网站访问整个ImageNet数据库的权限。这样做即表示您同意遵守访问条款。

作为一个tar文件下载

完整的ImageNet数据目前不可用,ILSVRC的数据可供下载。

ImageNet Fall 2011 release MD5:...

Deng等人的ImageNet10K ECCV2010

但是打开这两个链接时都显示“糟糕,URL无效。”(这绝对不是由于我的网络或浏览器出现问题。我可以根据ImageNet网页风格的一致性判断这一点。我猜测这些链接太旧了,移动到了其他的URL,但他们的网站没有立即更新)

我有两个问题。

(1) 我从哪里以及如何真正下载ImageNet数据(以及它们的标签,用于分类任务)?

(2) 我想为了验证我论文中的方法而下载数据。即使数据集被下载,我担心它过于庞大。我必须在ImageNet上进行验证吗(因为它被许多论文采用...)? Tiny ImageNet数据的页面在他们的网站上似乎没有问题。但它是一个小得多的数据集。

2个回答

8
它可以使用Python中的datasets库进行下载:
>>> from datasets import load_dataset
>>> ds = load_dataset("imagenet-1k")
>>> train_ds = ds["train"]
>>> train_ds[0]["image"]  # a PIL Image

您可能需要安装它以及Pillow,并在接受访问条款后登录Hugging Face。
pip install datasets Pillow
huggingface-cli login

您可以在Hugging Face的ImageNet页面上找到更多信息和下载文件的链接:https://huggingface.co/datasets/imagenet-1k

1
这是目前最好的解决方案,因为Kaggle数据集是占用160+ GB的“完整”ImageNet数据集。根据这些特定的说明,从HF获取的ImageNet1K相对容易设置。 - Yuri Brigance

8

ImageNet下载:

进入https://www.kaggle.com/c/imagenet-object-localization-challenge,点击“data”标签。您可以使用Kaggle API在远程计算机上下载,或者直接从该页面下载所有所需文件。

它们提供了标签和图像数据。

我不知道ImageNet网站怎么了,但今天链接列表链接也对我无效。您仍然可以通过访问备用镜像(例如 Kaggle ImageNet 下载,我提供的链接)来获取数据。据我所知,Kaggle ImageNet 相当于其网站上的 ImageNet。

关于您的第二个问题,我不确定如何回答,因为我不了解您的项目足够多。但是,ImageNet 可能适用于验证您的模型。


1
最近Imagenet关闭了“下载图像URL”部分,但它已经被存档在archive.org中。 - Ezequiel Adrian
我们如何找到图像URL部分? - Alankrit
1
https://www.kaggle.com/c/imagenet-object-localization-challenge 下载一个包含 DataAnnotationsImageSets 的文件夹。有没有人能够提示如何使用这些文件夹来训练或测试 VGG16 或 ResNet34 PyTorch 模型? - Anna Christine
下载数据集的命令已经在页面上了:kaggle competitions download -c imagenet-object-localization-challenge - undefined

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接