1 মি

  • বর্ণনা :

ইউক্লিডীয় দূরত্ব ব্যবহার করে আনুমানিক নিকটতম প্রতিবেশী অনুসন্ধানের জন্য প্রাক-প্রশিক্ষিত এম্বেডিং। এই ডেটাসেট দুটি বিভাজন নিয়ে গঠিত:

  1. 'ডাটাবেস': 1,000,000 ডেটা পয়েন্ট নিয়ে গঠিত, প্রতিটিতে বৈশিষ্ট্য রয়েছে: 'এমবেডিং' (128 ফ্লোটস), 'ইনডেক্স' (int64), 'প্রতিবেশী' (খালি তালিকা)।
  2. 'পরীক্ষা': 10,000 ডেটা পয়েন্ট নিয়ে গঠিত, প্রতিটিতে বৈশিষ্ট্য রয়েছে: 'এমবেডিং' (128 ফ্লোটস), 'সূচক' (int64), 'প্রতিবেশী' ('সূচক' তালিকা এবং ডাটাবেসের নিকটতম প্রতিবেশীদের 'দূরত্ব'। )
বিভক্ত উদাহরণ
'database' 1,000,000
'test' 10,000
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'embedding': Tensor(shape=(128,), dtype=float32),
    'index': Scalar(shape=(), dtype=int64),
    'neighbors': Sequence({
        'distance': Scalar(shape=(), dtype=float32),
        'index': Scalar(shape=(), dtype=int64),
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
এমবেডিং টেনসর (128,) float32
সূচক স্কেলার int64 বিভাজনের মধ্যে সূচক।
প্রতিবেশী ক্রম গণনা করা প্রতিবেশী, যা শুধুমাত্র পরীক্ষা বিভাজনের জন্য উপলব্ধ।
প্রতিবেশী/দূরত্ব স্কেলার float32 প্রতিবেশীর দূরত্ব।
প্রতিবেশী/সূচক স্কেলার int64 প্রতিবেশী সূচক।
  • উদ্ধৃতি :
@article{jegou2010product,
  title={Product quantization for nearest neighbor search},
  author={Jegou, Herve and Douze, Matthijs and Schmid, Cordelia},
  journal={IEEE transactions on pattern analysis and machine intelligence},
  volume={33},
  number={1},
  pages={117--128},
  year={2010},
  publisher={IEEE}
}