الک 1 متر

با مجموعه‌ها، منظم بمانید ذخیره و دسته‌بندی محتوا براساس اولویت‌های شما.

  • توضیحات :

جاسازی های از پیش آموزش دیده برای جستجوی تقریبی نزدیکترین همسایه با استفاده از فاصله اقلیدسی. این مجموعه داده از دو تقسیم تشکیل شده است:

  1. 'پایگاه داده': شامل 1,000,000 نقطه داده است که هر کدام دارای ویژگیهایی است: 'جاسازی' (128 شناور)، 'شاخص' (int64)، 'همسایگان' (فهرست خالی).
  2. "تست": شامل 10000 نقطه داده است که هر کدام دارای ویژگی هایی است: "جاسازی" (128 شناور)، "ایندکس" (int64)، "همسایگان" (فهرست "شاخص" و "فاصله" نزدیکترین همسایگان در پایگاه داده. )
شکاف مثال ها
'database' 1,000,000
'test' 10000
  • ساختار ویژگی :
FeaturesDict({
    'embedding': Tensor(shape=(128,), dtype=float32),
    'index': Scalar(shape=(), dtype=int64),
    'neighbors': Sequence({
        'distance': Scalar(shape=(), dtype=float32),
        'index': Scalar(shape=(), dtype=int64),
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
تعبیه کردن تانسور (128،) float32
فهرست مطالب اسکالر int64 شاخص در شکاف.
همسایه ها توالی همسایه های محاسبه شده، که فقط برای تقسیم تست در دسترس است.
همسایگان/فاصله اسکالر float32 فاصله همسایه
همسایگان/شاخص اسکالر int64 شاخص همسایه.
  • نقل قول :
@article{jegou2010product,
  title={Product quantization for nearest neighbor search},
  author={Jegou, Herve and Douze, Matthijs and Schmid, Cordelia},
  journal={IEEE transactions on pattern analysis and machine intelligence},
  volume={33},
  number={1},
  pages={117--128},
  year={2010},
  publisher={IEEE}
}