web_graph

 • คำอธิบาย :

ชุดข้อมูลนี้มีกราฟกระจัดกระจายซึ่งแสดงโครงสร้างลิงก์เว็บสำหรับส่วนย่อยเล็กๆ ของเว็บ

เป็นเวอร์ชันที่ประมวลผลแล้วของการรวบรวมข้อมูลเดี่ยวที่ดำเนินการโดย CommonCrawl ในปี 2021 โดยเราจะตัดทุกอย่างออกและเก็บเฉพาะโครงสร้างลิงก์->เอาท์ลิงก์ ชุดข้อมูลสุดท้ายนั้นเป็นรูปแบบ int -> List[int] โดยแต่ละรหัสจำนวนเต็มจะแทน url

นอกจากนี้ เพื่อเพิ่มมูลค่าของทรัพยากรนี้ เราได้สร้าง WebGraph 6 เวอร์ชันที่แตกต่างกัน โดยแต่ละเวอร์ชันจะแตกต่างกันไปตามรูปแบบและโลแคล เราใช้ขั้นตอนการประมวลผลต่อไปนี้ ตามลำดับ:

 • เราเริ่มต้นด้วยไฟล์ WAT จากการรวบรวมข้อมูลในเดือนมิถุนายน 2021
 • เนื่องจากเอาท์ลิงก์ใน HTTP-Response-Metadata ถูกจัดเก็บเป็นพาธสัมพัทธ์ เราจึงแปลงเป็นพาธสัมบูรณ์โดยใช้ urllib หลังจากตรวจสอบแต่ละลิงก์แล้ว
 • เพื่อศึกษากราฟเฉพาะตำแหน่งที่ตั้ง เรากรองเพิ่มเติมตามโดเมนระดับบนสุด 2 โดเมน: 'de' และ 'in' โดยแต่ละโดเมนจะสร้างกราฟที่มีลำดับความสำคัญน้อยกว่าจำนวนโหนด
 • กราฟเหล่านี้ยังคงมีรูปแบบกระจัดกระจายตามอำเภอใจและลิงก์ห้อย ดังนั้นเราจึงกรองโหนดเพิ่มเติมในแต่ละกราฟเพื่อให้มีลิงก์เข้าและออกขั้นต่ำ K ∈ [10, 50] โปรดทราบว่าเราทำการประมวลผลเพียงครั้งเดียว ดังนั้นนี่จึงยังคงเป็นการประมาณ เช่น กราฟผลลัพธ์อาจมีโหนดที่มีลิงก์น้อยกว่า K
 • การใช้ทั้งตัวกรองตำแหน่งที่ตั้งและจำนวนนับ เราสรุปชุดข้อมูล WebGraph 6 เวอร์ชัน สรุปไว้ในตารางต่อไปนี้
รุ่น โดเมนระดับบนสุด นับขั้นต่ำ จำนวนโหนด ขอบตัวเลข
เบาบาง 10 365.4M 30 บ
หนาแน่น 50 136.5ม 22B
กระจัดกระจาย เดอ 10 19.7M 1.19 บ
ไม่หนาแน่น เดอ 50 5.7M 0.82บ
ในเบาบาง ใน 10 1.5M 0.14บ
ในความหนาแน่น ใน 50 0.5M 0.12บ

ชุดข้อมูลทุกรุ่นมีคุณสมบัติดังต่อไปนี้:

 • "row_tag": ตัวระบุเฉพาะของแถว (ลิงก์แหล่งที่มา)
 • "col_tag": รายการตัวระบุเฉพาะของคอลัมน์ที่ไม่ใช่ศูนย์ (ปลายทาง outlinks)
 • "gt_tag": รายการของตัวระบุเฉพาะของคอลัมน์ที่ไม่ใช่ศูนย์ที่ใช้เป็นค่าความจริงพื้นฐาน (ปลายทางของลิงก์ภายนอก) ว่างเปล่าสำหรับการแยก train/train_t

 • โฮมเพจ : https://arxiv.org/abs/2112.02194

 • รหัสที่มา : tfds.structured.web_graph.WebGraph

 • รุ่น :

  • 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
 • ขนาดการดาวน์โหลด : Unknown size

 • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

 • โครงสร้างคุณลักษณะ :

FeaturesDict({
  'col_tag': Sequence(int64),
  'gt_tag': Sequence(int64),
  'row_tag': int64,
})
 • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
col_tag ลำดับ (เทนเซอร์) (ไม่มี,) int64
gt_tag ลำดับ (เทนเซอร์) (ไม่มี,) int64
row_tag เทนเซอร์ int64
 • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

 • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

 • การอ้างอิง :

@article{mehta2021alx,
  title={ALX: Large Scale Matrix Factorization on TPUs},
  author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
  year={2021},
  eprint={2112.02194},
  archivePrefix={arXiv},
  primaryClass={cs.LG}
}

web_graph/sparse (การกำหนดค่าเริ่มต้น)

 • คำอธิบาย การกำหนดค่า: WebGraph-sparse มีขอบประมาณ 30B และโหนดประมาณ 365M

 • ขนาดชุดข้อมูล : 273.38 GiB

 • แยก :

แยก ตัวอย่าง
'test' 39,871,321
'train' 372,049,054
'train_t' 410,867,007

web_graph/หนาแน่น

 • คำอธิบาย การกำหนดค่า: WebGraph-dense มีขอบประมาณ 22B และโหนดประมาณ 136.5M

 • ขนาดชุดข้อมูล : 170.87 GiB

 • แยก :

แยก ตัวอย่าง
'test' 13,256,496
'train' 122,815,749
'train_t' 136,019,364

web_graph/de-sparse

 • คำอธิบาย การกำหนดค่า: WebGraph-de-sparse มีขอบประมาณ 1.19B และโหนดประมาณ 19.7M

 • ขนาดชุดข้อมูล : 10.25 GiB

 • แยก :

แยก ตัวอย่าง
'test' 1,903,443
'train' 17,688,633
'train_t' 19,566,045

web_graph/de-หนาแน่น

 • คำอธิบาย การกำหนดค่า: WebGraph-de-dense มีขอบประมาณ 0.82B และโหนดประมาณ 5.7M

 • ขนาดชุดข้อมูล : 5.90 GiB

 • แยก :

แยก ตัวอย่าง
'test' 553,270
'train' 5,118,902
'train_t' 5,672,473

web_graph/in-sparse

 • คำอธิบาย การกำหนดค่า: WebGraph-de-sparse มีขอบประมาณ 0.14B และโหนดประมาณ 1.5M

 • ขนาดชุดข้อมูล : 960.57 MiB

 • แยก :

แยก ตัวอย่าง
'test' 140,313
'train' 1,309,063
'train_t' 1,445,042

web_graph/หนาแน่น

 • คำอธิบาย การกำหนดค่า: WebGraph-de-dense มีขอบประมาณ 0.12B และโหนดประมาณ 0.5M

 • ขนาดชุดข้อมูล : 711.72 MiB

 • แยก :

แยก ตัวอย่าง
'test' 47,894
'train' 443,786
'train_t' 491,634