עמוק1ב

  • תיאור :

הטמעות מאומנות מראש לחיפוש משוער של השכנים הקרובים ביותר באמצעות מרחק הקוסינוס. מערך נתונים זה מורכב משני פיצולים:

  1. 'בסיס נתונים': מורכב מ-9,990,000 נקודות נתונים, לכל אחת יש תכונות: 'הטמעה' (96 צפים), 'אינדקס' (int64), 'שכנים' (רשימה ריקה).
  2. 'מבחן': מורכב מ-10,000 נקודות נתונים, לכל אחת יש תכונות: 'הטבעה' (96 צפים), 'אינדקס' (int64), 'שכנים' (רשימת 'אינדקס' ו'מרחק' של השכנים הקרובים ביותר במסד הנתונים. )
לְפַצֵל דוגמאות
'database' 9,990,000
'test' 10,000
  • מבנה תכונה :
FeaturesDict({
    'embedding': Tensor(shape=(96,), dtype=float32),
    'index': Scalar(shape=(), dtype=int64, description=Index within the split.),
    'neighbors': Sequence({
        'distance': Scalar(shape=(), dtype=float32, description=Neighbor distance.),
        'index': Scalar(shape=(), dtype=int64, description=Neighbor index.),
    }),
})
  • תיעוד תכונה :
תכונה מַחלָקָה צוּרָה Dtype תֵאוּר
FeaturesDict
הטבעה מוֹתֵחַ (96,) לצוף32
מַדָד סקלר int64 אינדקס בתוך הפיצול.
שכנים רֶצֶף השכנים המחושבים, שזמינים רק לפיצול המבחן.
שכנים/מרחק סקלר לצוף32 מרחק שכן.
שכנים/אינדקס סקלר int64 מדד השכנים.
  • ציטוט :
@inproceedings{babenko2016efficient,
  title={Efficient indexing of billion-scale datasets of deep descriptors},
  author={Babenko, Artem and Lempitsky, Victor},
  booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
  pages={2055--2063},
  year={2016}
}