- คำอธิบาย :
การฝัง Global Vectors สำหรับการแทนคำ (GloVe) ล่วงหน้าสำหรับการค้นหาเพื่อนบ้านที่ใกล้ที่สุดโดยประมาณ ชุดข้อมูลนี้ประกอบด้วยสองส่วน:
- 'ฐานข้อมูล': ประกอบด้วยจุดข้อมูล 1,183,514 จุด แต่ละจุดมีคุณสมบัติ: 'ฝัง' (100 โฟลต), 'ดัชนี' (int64), 'เพื่อนบ้าน' (รายการว่าง)
- 'ทดสอบ': ประกอบด้วยจุดข้อมูล 10,000 จุด แต่ละจุดมีคุณสมบัติ: 'ฝัง' (100 ลอย), 'ดัชนี' (int64), 'เพื่อนบ้าน' (รายการของ 'ดัชนี' และ 'ระยะทาง' ของเพื่อนบ้านที่ใกล้ที่สุดในฐานข้อมูล )
รหัสที่มา :
tfds.nearest_neighbors.glove_100_angular.Glove100Angular
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
462.93 MiB
ขนาดชุดข้อมูล :
567.90 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'database' | 1,183,514 |
'test' | 10,000 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'embedding': Tensor(shape=(100,), dtype=float32),
'index': Scalar(shape=(), dtype=int64),
'neighbors': Sequence({
'distance': Scalar(shape=(), dtype=float32),
'index': Scalar(shape=(), dtype=int64),
}),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
การฝัง | เทนเซอร์ | (100,) | ลอย32 | |
ดัชนี | สเกลาร์ | int64 | ดัชนีภายในการแบ่ง | |
เพื่อนบ้าน | ลำดับ | เพื่อนบ้านที่คำนวณซึ่งมีให้สำหรับการทดสอบแยกเท่านั้น | ||
เพื่อนบ้าน/ระยะห่าง | สเกลาร์ | ลอย32 | ระยะห่างเพื่อนบ้าน. | |
เพื่อนบ้าน/ดัชนี | สเกลาร์ | int64 | ดัชนีเพื่อนบ้าน |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{pennington2014glove,
author = {Jeffrey Pennington and Richard Socher and Christopher D. Manning},
booktitle = {Empirical Methods in Natural Language Processing (EMNLP)},
title = {GloVe: Global Vectors for Word Representation},
year = {2014},
pages = {1532--1543},
url = {http://www.aclweb.org/anthology/D14-1162},
}