imagenet2012

一般に「ImageNet」として知られる ILSVRC 2012 は、WordNet 階層に従って編成された画像データセットです。おそらく複数の単語または語句で記述される、WordNet の各意味のある概念は、「同義語セット」または「synset」と呼ばれます。 WordNet には 100,000 以上の synset があり、その大部分は名詞です (80,000 以上)。 ImageNet では、各 synset を説明するために平均 1000 枚の画像を提供することを目指しています。各コンセプトの画像は、品質管理され、人による注釈が付けられています。その完成時に、ImageNet が WordNet 階層のほとんどの概念に対して、きれいに並べ替えられた何千万もの画像を提供することを願っています。

テスト分割には 100K の画像が含まれていますが、ラベルが公開されていないため、ラベルはありません。 2019 年 10 月 10 日にリリースされたマイナー パッチで、2012 年からのテスト分割のサポートを提供します。このデータを手動でダウンロードするには、ユーザーは次の操作を実行する必要があります。

  1. 2012 年のテスト スプリットは、こちらからダウンロードできます
  2. 2019 年 10 月 10 日のパッチをダウンロードします。同じページに提供されているパッチへの Google ドライブ リンクがあります。
  3. 2 つの tar ボールを結合し、元のアーカイブのイメージをパッチのイメージで手動で上書きします。 image-net.org の説明によると、この手順で上書きされるイメージはごくわずかです。

結果として得られる tar-ball は、TFDS によって処理される場合があります。

ImageNet テスト分割でモデルの精度を評価するには、分割内のすべての画像に対して推論を実行し、それらの結果をテキスト ファイルにエクスポートして、ImageNet 評価サーバーにアップロードする必要があります。 ImageNet 評価サーバーの管理者は、オーバーフィッティングを防ぐために、1 人のユーザーが 1 週間に最大 2 件の提出を許可しています。

テスト分割の精度を評価するには、まず image-net.org でアカウントを作成する必要があります。このアカウントは、サイト管理者によって承認される必要があります。アカウントが作成されたら、 https://image-net.org/challenges/LSVRC/eval_server.phpでテスト サーバーに結果を送信できます。送信は、複数のタスクに対応するいくつかの ASCII テキスト ファイルで構成されます。対象となるタスクは、「分類提出 (上位 5 cls エラー)」です。エクスポートされたテキスト ファイルのサンプルは次のようになります。

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

エクスポート形式は、ここで入手可能な 2013 開発キット内の「readme.txt」に完全に説明されています: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz 「3.3 CLS-LOC」というタイトルのセクションを参照してください。提出形式」です。簡単に言うと、テキスト ファイルの形式は、テスト分割の各画像に対応する 100,000 行です。整数の各行は、各テスト イメージのランク順の上位 5 つの予測に対応します。整数は、対応するラベル ファイルの行番号に対応する 1-index です。 labels.txt を参照してください。

  • 追加のドキュメント:コードを使用したペーパーの探索

  • ホームページhttps ://image-net.org/

  • ソース コード: tfds.datasets.imagenet2012.Builder

  • バージョン:

    • 2.0.0 : 検証ラベルを修正しました。
    • 2.0.1 : エンコーディングの修正。ユーザーの観点からは変更はありません。
    • 3.0.0 : 12 個までの画像のカラー化を修正 (CMYK -> RGB)。一貫性を保つために形式を修正します (単一の png 画像を Jpeg に変換します)。アーカイブから直接世代を読み取る高速化。

    • 4.0.0 : (非公開)

    • 5.0.0 : 新しい分割 API ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (デフォルト): テスト分割が追加されました。

  • ダウンロードサイズ: サイズUnknown size

  • データセットサイズ: 155.84 GiB

  • 手動ダウンロードの手順: このデータセットでは、ソース データを手動でdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ) にダウンロードする必要があります。
    manual_dir には、ILSVRC2012_img_train.tar と ILSVRC2012_img_val.tar の 2 つのファイルが含まれている必要があります。データセットをダウンロードするためのリンクを取得するには、 https://image-net.org/download-imagesに登録する必要があります。

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'test' 100,000
'train' 1,281,167
'validation' 50,000
  • 機能構造:
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
ファイル名文章ストリング
画像画像(なし、なし、3) uint8
ラベルクラスラベルint64

視覚化

  • 引用
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}