- Açıklama :
Bu veri kümesi, Web'in küçük bir alt kümesi için web bağlantı yapısını temsil eden seyrek bir grafik içerir.
Bu, 2021'de CommonCrawl tarafından gerçekleştirilen ve her şeyi çıkardığımız ve yalnızca link->outlinks yapısını koruduğumuz tek bir taramanın işlenmiş bir versiyonudur. Nihai veri kümesi temel olarak int -> List[int] biçimindedir ve her tamsayı kimliği bir url'yi temsil eder.
Ayrıca, bu kaynağın değerini artırmak için, her biri seyreklik deseni ve yerel ayarı değişen 6 farklı WebGraph sürümü oluşturduk. Sırasıyla aşağıdaki işleme adımlarını gerçekleştirdik:
- Haziran 2021 taramasından itibaren WAT dosyalarıyla başladık.
- HTTP-Response-Metadata'daki outlink'ler göreli yollar olarak depolandığından, her bir bağlantıyı doğruladıktan sonra urllib kullanarak onları mutlak yollara dönüştürürüz.
- Yerel ayara özgü grafikleri incelemek için, her biri büyüklük sırasına göre daha az sayıda düğüme sahip bir grafik üreten 2 üst düzey etki alanına dayalı olarak filtre uygularız: 'de' ve 'in'.
- Bu grafikler hala rastgele seyreklik desenlerine ve sarkan bağlantılara sahip olabilir. Böylece, her grafikteki düğümleri, minimum K ∈ [10, 50] iç ve dış bağlantıya sahip olacak şekilde ayrıca filtreleriz. Bu işlemi yalnızca bir kez yaptığımıza dikkat edin, bu nedenle bu hala bir yaklaşıklıktır, yani elde edilen grafiğin K'den daha az bağlantıya sahip düğümleri olabilir.
- Hem yerel ayar hem de sayım filtrelerini kullanarak, aşağıdaki tabloda özetlenen WebGraph veri kümesinin 6 sürümünü sonlandırıyoruz.
sürüm | Üst düzey alan | Min sayısı | Düğüm sayısı | Kenar sayısı |
---|---|---|---|---|
seyrek | 10 | 365,4 milyon | 30B | |
yoğun | 50 | 136.5 milyon | 22B | |
seyrek | de | 10 | 19,7 milyon | 1.19B |
yoğunluğu azaltılmış | de | 50 | 5,7 milyon | 0.82B |
seyrek | içinde | 10 | 1.5 milyon | 0.14B |
yoğun | içinde | 50 | 0,5 milyon | 0.12B |
Veri kümesinin tüm sürümleri aşağıdaki özelliklere sahiptir:
- "row_tag": satırın benzersiz tanımlayıcısı (kaynak bağlantı).
- "col_tag": sıfır olmayan sütunların (hedef dış bağlantıları) benzersiz tanımlayıcılarının listesi.
"gt_tag": temel gerçek (hedef dış bağlantılar) olarak kullanılan sıfır olmayan sütunların benzersiz tanımlayıcılarının listesi, train/train_t bölmeleri için boş.
Ana Sayfa : https://arxiv.org/abs/2112.02194
Kaynak kodu :
tfds.structured.web_graph.WebGraph
Sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
İndirme boyutu :
Unknown size
Otomatik önbelleğe alındı ( belgeler ): Hayır
Özellik yapısı :
FeaturesDict({
'col_tag': Sequence(tf.int64),
'gt_tag': Sequence(tf.int64),
'row_tag': tf.int64,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
col_tag | Sıra (Tensor) | (Hiçbiri,) | tf.int64 | |
gt_tag | Sıra (Tensor) | (Hiçbiri,) | tf.int64 | |
satır etiketi | tensör | tf.int64 |
Denetimli anahtarlar (bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmez.
alıntı :
@article{mehta2021alx,
title={ALX: Large Scale Matrix Factorization on TPUs},
author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
year={2021},
eprint={2112.02194},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
web_graph/seyrek (varsayılan yapılandırma)
Yapılandırma açıklaması : WebGraph seyrek, yaklaşık 30B kenar ve yaklaşık 365M düğüm içerir.
Veri kümesi boyutu :
273.38 GiB
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 39.871.321 |
'train' | 372.049,054 |
'train_t' | 410.867,007 |
- Örnekler ( tfds.as_dataframe ):
web_graph/yoğun
Yapılandırma açıklaması : WebGraph yoğun, yaklaşık 22B kenar ve yaklaşık 136.5M düğüm içerir.
Veri kümesi boyutu :
170.87 GiB
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 13.256.496 |
'train' | 122.815.749 |
'train_t' | 136.019.364 |
- Örnekler ( tfds.as_dataframe ):
web_graph/de-seyrek
Yapılandırma açıklaması : WebGraph-de-sparse, yaklaşık 1,19B kenar ve yaklaşık 19,7 milyon düğüm içerir.
Veri kümesi boyutu :
10.25 GiB
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 1.903.443 |
'train' | 17.688.633 |
'train_t' | 19.566.045 |
- Örnekler ( tfds.as_dataframe ):
web_graph/de-yoğun
Yapılandırma açıklaması : WebGraph-de-dense, yaklaşık 0,82B kenar ve yaklaşık 5,7M düğüm içerir.
Veri kümesi boyutu :
5.90 GiB
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 553.270 |
'train' | 5.118.902 |
'train_t' | 5.672.473 |
- Örnekler ( tfds.as_dataframe ):
web_graph/seyrek
Yapılandırma açıklaması : WebGraph-de-sparse, yaklaşık 0.14B kenar ve yaklaşık 1.5M düğüm içerir.
Veri kümesi boyutu :
960.57 MiB
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 140.313 |
'train' | 1.309.063 |
'train_t' | 1.445.042 |
- Örnekler ( tfds.as_dataframe ):
web_graph/in-yoğun
Yapılandırma açıklaması : WebGraph-de-dense, yaklaşık 0.12B kenar ve yaklaşık 0,5M düğüm içerir.
Veri kümesi boyutu :
711.72 MiB
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 47.894 |
'train' | 443.786 |
'train_t' | 491.634 |
- Örnekler ( tfds.as_dataframe ):