sift1m

  • विवरण :

यूक्लिडियन दूरी का उपयोग करके निकटतम निकटतम पड़ोसी खोज के लिए पूर्व-प्रशिक्षित एम्बेडिंग। इस डेटासेट में दो विभाजन होते हैं:

  1. 'डेटाबेस': 1,000,000 डेटा पॉइंट होते हैं, प्रत्येक में विशेषताएं होती हैं: 'एम्बेडिंग' (128 फ़्लोट्स), 'इंडेक्स' (int64), 'पड़ोसी' (खाली सूची)।
  2. 'परीक्षण': में 10,000 डेटा बिंदु होते हैं, प्रत्येक में विशेषताएं होती हैं: 'एम्बेडिंग' (128 फ़्लोट्स), 'इंडेक्स' (int64), 'पड़ोसी' ('इंडेक्स' की सूची और डेटाबेस में निकटतम पड़ोसियों की 'दूरी'। )
विभाजित करना उदाहरण
'database' 1,000,000
'test' 10,000
  • फ़ीचर संरचना :
FeaturesDict({
    'embedding': Tensor(shape=(128,), dtype=float32),
    'index': Scalar(shape=(), dtype=int64),
    'neighbors': Sequence({
        'distance': Scalar(shape=(), dtype=float32),
        'index': Scalar(shape=(), dtype=int64),
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
एम्बेडिंग टेन्सर (128,) फ्लोट32
अनुक्रमणिका अदिश int64 विभाजन के भीतर सूचकांक।
पड़ोसियों क्रम परिकलित पड़ोसी, जो केवल परीक्षण विभाजन के लिए उपलब्ध है।
पड़ोसी / दूरी अदिश फ्लोट32 पड़ोसी की दूरी।
पड़ोसियों/index अदिश int64 पड़ोसी सूचकांक।
  • उद्धरण :
@article{jegou2010product,
  title={Product quantization for nearest neighbor search},
  author={Jegou, Herve and Douze, Matthijs and Schmid, Cordelia},
  journal={IEEE transactions on pattern analysis and machine intelligence},
  volume={33},
  number={1},
  pages={117--128},
  year={2010},
  publisher={IEEE}
}