दस्ताना100_कोणीय

  • विवरण :

अनुमानित निकटतम पड़ोसी खोज के लिए शब्द प्रतिनिधित्व (GloVe) एम्बेडिंग के लिए पूर्व-प्रशिक्षित वैश्विक क्षेत्र। इस डेटासेट में दो विभाजन होते हैं:

  1. 'डेटाबेस': में 1,183,514 डेटा पॉइंट होते हैं, प्रत्येक में विशेषताएं होती हैं: 'एम्बेडिंग' (100 फ़्लोट्स), 'इंडेक्स' (int64), 'पड़ोसी' (खाली सूची)।
  2. 'परीक्षण': इसमें 10,000 डेटा पॉइंट होते हैं, प्रत्येक में विशेषताएं होती हैं: 'एम्बेडिंग' (100 फ़्लोट्स), 'इंडेक्स' (int64), 'पड़ोसी' (डेटाबेस में निकटतम पड़ोसियों की 'इंडेक्स' और 'दूरी' की सूची। )
विभाजित करना उदाहरण
'database' 1,183,514
'test' 10,000
  • फ़ीचर संरचना :
FeaturesDict({
    'embedding': Tensor(shape=(100,), dtype=float32),
    'index': Scalar(shape=(), dtype=int64),
    'neighbors': Sequence({
        'distance': Scalar(shape=(), dtype=float32),
        'index': Scalar(shape=(), dtype=int64),
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
एम्बेडिंग टेन्सर (100,) फ्लोट32
अनुक्रमणिका अदिश int64 विभाजन के भीतर सूचकांक।
पड़ोसियों क्रम परिकलित पड़ोसी, जो केवल परीक्षण विभाजन के लिए उपलब्ध है।
पड़ोसी / दूरी अदिश फ्लोट32 पड़ोसी की दूरी।
पड़ोसियों/index अदिश int64 पड़ोसी सूचकांक।
  • उद्धरण :
@inproceedings{pennington2014glove,
  author = {Jeffrey Pennington and Richard Socher and Christopher D. Manning},
  booktitle = {Empirical Methods in Natural Language Processing (EMNLP)},
  title = {GloVe: Global Vectors for Word Representation},
  year = {2014},
  pages = {1532--1543},
  url = {http://www.aclweb.org/anthology/D14-1162},
}