web_graph

 • توضیحات :

این مجموعه داده شامل یک نمودار پراکنده است که ساختار پیوند وب را برای یک زیر مجموعه کوچک از وب نشان می دهد.

این یک نسخه پردازش شده از یک خزیدن منفرد است که توسط CommonCrawl در سال 2021 انجام شد که در آن همه چیز را حذف می کنیم و فقط ساختار link->outlinks را نگه می داریم. مجموعه داده نهایی اساساً فرمت int -> List[int] است که هر شناسه عدد صحیح نشان دهنده یک URL است.

همچنین، به منظور افزایش ارزش این منبع، 6 نسخه مختلف از WebGraph را ایجاد کردیم که هر کدام از نظر الگوی پراکندگی و محلی متفاوت هستند. ما مراحل پردازش زیر را به ترتیب انجام دادیم:

 • ما با فایل‌های WAT از خزیدن ژوئن ۲۰۲۱ شروع کردیم.
 • از آنجایی که لینک های خروجی در HTTP-Response-Metadata به عنوان مسیرهای نسبی ذخیره می شوند، پس از تأیید اعتبار هر پیوند، آنها را با استفاده از urllib به مسیرهای مطلق تبدیل می کنیم.
 • برای مطالعه نمودارهای محلی خاص، ما بر اساس 2 حوزه سطح بالا فیلتر می کنیم: 'de' و 'in'، که هر کدام یک نمودار با مرتبه بزرگی تعداد گره ها کمتر تولید می کنند.
 • این نمودارها هنوز هم می توانند الگوهای پراکنده دلخواه و پیوندهای آویزان داشته باشند. بنابراین، گره‌ها را در هر گراف فیلتر می‌کنیم تا حداقل K∈ [10، 50] پیوندهای داخلی و خروجی داشته باشند. توجه داشته باشید که ما فقط یک بار این پردازش را انجام می دهیم، بنابراین این هنوز یک تقریب است، یعنی نمودار حاصل ممکن است گره هایی با پیوندهای کمتر از K داشته باشد.
 • با استفاده از فیلترهای محلی و شمارش، ما 6 نسخه از مجموعه داده WebGraph را که در جدول فولینگ خلاصه شده اند، نهایی می کنیم.
نسخه دامنه سطح بالا تعداد حداقل تعداد گره ها تعداد لبه ها
پراکنده 10 365.4 میلیون 30B
متراکم 50 136.5 میلیون 22B
پراکنده کردن de 10 19.7 میلیون 1.19B
متراکم کردن de 50 5.7 میلیون 0.82B
به صورت پراکنده که در 10 1.5 میلیون 0.14B
متراکم که در 50 0.5 میلیون 0.12B

تمام نسخه های مجموعه داده دارای ویژگی های زیر هستند:

 • "row_tag": یک شناسه منحصر به فرد ردیف (لینک منبع).
 • "col_tag": فهرستی از شناسه‌های منحصربه‌فرد ستون‌های غیر صفر (بهترین پیوندهای خروجی).
 • "gt_tag": فهرستی از شناسه‌های منحصربه‌فرد ستون‌های غیرصفری که به‌عنوان حقیقت زمین (پایین‌ترین پیوندهای خروجی) استفاده می‌شوند، خالی برای تقسیم قطار/train_t.

 • صفحه اصلی : https://arxiv.org/abs/2112.02194

 • کد منبع : tfds.structured.web_graph.WebGraph

 • نسخه ها :

  • 1.0.0 (پیش فرض): انتشار اولیه.
 • اندازه دانلود : Unknown size

 • ذخیره خودکار ( اسناد ): خیر

 • ساختار ویژگی :

FeaturesDict({
  'col_tag': Sequence(int64),
  'gt_tag': Sequence(int64),
  'row_tag': int64,
})
 • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
col_tag دنباله (تنسور) (هیچ یک،) int64
gt_tag دنباله (تنسور) (هیچ یک،) int64
row_tag تانسور int64
@article{mehta2021alx,
  title={ALX: Large Scale Matrix Factorization on TPUs},
  author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
  year={2021},
  eprint={2112.02194},
  archivePrefix={arXiv},
  primaryClass={cs.LG}
}

web_graph/sparse (پیکربندی پیش‌فرض)

 • توضیحات پیکربندی : WebGraph-sparse شامل حدود 30B لبه و حدود 365M گره است.

 • حجم مجموعه داده : 273.38 GiB

 • تقسیم ها :

شکاف مثال ها
'test' 39,871,321
'train' 372,049,054
'train_t' 410,867,007

web_graph / متراکم

 • توضیحات پیکربندی : WebGraph-tent شامل حدود 22B لبه و حدود 136.5M گره است.

 • حجم مجموعه داده : 170.87 GiB

 • تقسیم ها :

شکاف مثال ها
'test' 13,256,496
'train' 122,815,749
'train_t' 136,019,364

web_graph/de-sparse

 • توضیحات پیکربندی : WebGraph-de-sparse شامل حدود 1.19B یال و حدود 19.7M گره است.

 • حجم مجموعه داده : 10.25 GiB

 • تقسیم ها :

شکاف مثال ها
'test' 1,903,443
'train' 17,688,633
'train_t' 19,566,045

web_graph/de-dense

 • توضیحات پیکربندی : WebGraph-de-dense شامل حدود 0.82B لبه و حدود 5.7M گره است.

 • حجم مجموعه داده : 5.90 GiB

 • تقسیم ها :

شکاف مثال ها
'test' 553270
'train' 5,118,902
'train_t' 5,672,473

web_graph/in-sparse

 • توضیحات پیکربندی : WebGraph-de-sparse شامل حدود 0.14B لبه و حدود 1.5M گره است.

 • حجم مجموعه داده : 960.57 MiB

 • تقسیم ها :

شکاف مثال ها
'test' 140,313
'train' 1,309,063
'train_t' 1,445,042

web_graph/در متراکم

 • توضیحات پیکربندی : WebGraph-de-dense شامل حدود 0.12B لبه و حدود 0.5M گره است.

 • حجم مجموعه داده : 711.72 MiB

 • تقسیم ها :

شکاف مثال ها
'test' 47,894
'train' 443786
'train_t' 491,634