tamiser1m

  • Descriptif :

Embeddings pré-formés pour la recherche approximative du voisin le plus proche à l'aide de la distance euclidienne. Cet ensemble de données se compose de deux divisions :

  1. 'database' : se compose de 1 000 000 points de données, chacun ayant des fonctionnalités : 'embedding' (128 floats), 'index' (int64), 'neighbors' (liste vide).
  2. 'test' : se compose de 10 000 points de données, chacun ayant des caractéristiques : 'embedding' (128 floats), 'index' (int64), 'neighbors' (liste de 'index' et 'distance' des voisins les plus proches dans la base de données. )
Diviser Exemples
'database' 1 000 000
'test' 10 000
  • Structure des fonctionnalités :
FeaturesDict({
    'embedding': Tensor(shape=(128,), dtype=float32),
    'index': Scalar(shape=(), dtype=int64),
    'neighbors': Sequence({
        'distance': Scalar(shape=(), dtype=float32),
        'index': Scalar(shape=(), dtype=int64),
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classe Façonner Dtype Description
FonctionnalitésDict
incorporation Tenseur (128,) float32
indice Scalaire int64 Index dans la scission.
voisins Séquence Les voisins calculés, qui ne sont disponibles que pour le fractionnement de test.
voisins/distance Scalaire float32 Éloignement voisin.
voisins/index Scalaire int64 Indice voisin.
  • Citation :
@article{jegou2010product,
  title={Product quantization for nearest neighbor search},
  author={Jegou, Herve and Douze, Matthijs and Schmid, Cordelia},
  journal={IEEE transactions on pattern analysis and machine intelligence},
  volume={33},
  number={1},
  pages={117--128},
  year={2010},
  publisher={IEEE}
}