găng tay100_angular

  • Mô tả :

Các vectơ toàn cầu được đào tạo trước để nhúng biểu diễn từ (GloVe) để tìm kiếm hàng xóm gần nhất. Bộ dữ liệu này bao gồm hai phần:

  1. 'cơ sở dữ liệu': bao gồm 1.183.514 điểm dữ liệu, mỗi điểm có các tính năng: 'nhúng' (100 số float), 'chỉ mục' (int64), 'hàng xóm' (danh sách trống).
  2. 'test': gồm 10.000 điểm dữ liệu, mỗi điểm có các tính năng: 'embedding' (100 float), 'index' (int64), 'neighbor' (danh sách 'chỉ mục' và 'khoảng cách' của các láng giềng gần nhất trong cơ sở dữ liệu. )
Tách ra ví dụ
'database' 1.183.514
'test' 10.000
  • Cấu trúc tính năng :
FeaturesDict({
    'embedding': Tensor(shape=(100,), dtype=float32),
    'index': Scalar(shape=(), dtype=int64),
    'neighbors': Sequence({
        'distance': Scalar(shape=(), dtype=float32),
        'index': Scalar(shape=(), dtype=int64),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
nhúng tenxơ (100,) phao32
mục lục Vô hướng int64 Chỉ mục trong phần chia.
người hàng xóm Sự phối hợp Hàng xóm được tính toán, chỉ khả dụng cho phân tách thử nghiệm.
hàng xóm/khoảng cách Vô hướng phao32 Khoảng cách hàng xóm.
hàng xóm/chỉ số Vô hướng int64 Chỉ số hàng xóm
  • trích dẫn :
@inproceedings{pennington2014glove,
  author = {Jeffrey Pennington and Richard Socher and Christopher D. Manning},
  booktitle = {Empirical Methods in Natural Language Processing (EMNLP)},
  title = {GloVe: Global Vectors for Word Representation},
  year = {2014},
  pages = {1532--1543},
  url = {http://www.aclweb.org/anthology/D14-1162},
}