डीप1बी, डीप1बी

  • विवरण :

कोसाइन दूरी का उपयोग करके निकटतम निकटतम पड़ोसी खोज के लिए पूर्व-प्रशिक्षित एम्बेडिंग। इस डेटासेट में दो विभाजन होते हैं:

  1. 'डेटाबेस': इसमें 9,990,000 डेटा पॉइंट होते हैं, प्रत्येक में विशेषताएं होती हैं: 'एम्बेडिंग' (96 फ़्लोट्स), 'इंडेक्स' (int64), 'पड़ोसी' (खाली सूची)।
  2. 'टेस्ट': इसमें 10,000 डेटा पॉइंट होते हैं, प्रत्येक में विशेषताएं होती हैं: 'एम्बेडिंग' (96 फ़्लोट्स), 'इंडेक्स' (int64), 'पड़ोसी' ('इंडेक्स' की सूची और डेटाबेस में निकटतम पड़ोसियों की 'दूरी'। )
विभाजित करना उदाहरण
'database' 9,990,000
'test' 10,000
  • फ़ीचर संरचना :
FeaturesDict({
    'embedding': Tensor(shape=(96,), dtype=float32),
    'index': Scalar(shape=(), dtype=int64),
    'neighbors': Sequence({
        'distance': Scalar(shape=(), dtype=float32),
        'index': Scalar(shape=(), dtype=int64),
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
एम्बेडिंग टेन्सर (96,) फ्लोट32
अनुक्रमणिका अदिश int64 विभाजन के भीतर सूचकांक।
पड़ोसियों क्रम परिकलित पड़ोसी, जो केवल परीक्षण विभाजन के लिए उपलब्ध है।
पड़ोसी / दूरी अदिश फ्लोट32 पड़ोसी की दूरी।
पड़ोसियों/index अदिश int64 पड़ोसी सूचकांक।
  • उद्धरण :
@inproceedings{babenko2016efficient,
  title={Efficient indexing of billion-scale datasets of deep descriptors},
  author={Babenko, Artem and Lempitsky, Victor},
  booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
  pages={2055--2063},
  year={2016}
}