web_graph

  • Açıklama :

Bu veri kümesi, Web'in küçük bir alt kümesi için web bağlantı yapısını temsil eden seyrek bir grafik içerir.

Bu, 2021'de CommonCrawl tarafından gerçekleştirilen ve her şeyi çıkardığımız ve yalnızca link->outlinks yapısını koruduğumuz tek bir taramanın işlenmiş bir versiyonudur. Nihai veri kümesi temel olarak int -> List[int] biçimindedir ve her tamsayı kimliği bir url'yi temsil eder.

Ayrıca, bu kaynağın değerini artırmak için, her biri seyreklik deseni ve yerel ayarı değişen 6 farklı WebGraph sürümü oluşturduk. Sırasıyla aşağıdaki işleme adımlarını gerçekleştirdik:

  • Haziran 2021 taramasından itibaren WAT dosyalarıyla başladık.
  • HTTP-Response-Metadata'daki outlink'ler göreli yollar olarak depolandığından, her bir bağlantıyı doğruladıktan sonra urllib kullanarak onları mutlak yollara dönüştürürüz.
  • Yerel ayara özgü grafikleri incelemek için, her biri büyüklük sırasına göre daha az sayıda düğüme sahip bir grafik üreten 2 üst düzey etki alanına dayalı olarak filtre uygularız: 'de' ve 'in'.
  • Bu grafikler hala rastgele seyreklik desenlerine ve sarkan bağlantılara sahip olabilir. Böylece, her grafikteki düğümleri, minimum K ∈ [10, 50] iç ve dış bağlantıya sahip olacak şekilde ayrıca filtreleriz. Bu işlemi yalnızca bir kez yaptığımıza dikkat edin, bu nedenle bu hala bir yaklaşıklıktır, yani elde edilen grafiğin K'den daha az bağlantıya sahip düğümleri olabilir.
  • Hem yerel ayar hem de sayım filtrelerini kullanarak, aşağıdaki tabloda özetlenen WebGraph veri kümesinin 6 sürümünü sonlandırıyoruz.
sürüm Üst düzey alan Min sayısı Düğüm sayısı Kenar sayısı
seyrek 10 365,4 milyon 30B
yoğun 50 136.5 milyon 22B
seyrek de 10 19,7 milyon 1.19B
yoğunluğu azaltılmış de 50 5,7 milyon 0.82B
seyrek içinde 10 1.5 milyon 0.14B
yoğun içinde 50 0,5 milyon 0.12B

Veri kümesinin tüm sürümleri aşağıdaki özelliklere sahiptir:

  • "row_tag": satırın benzersiz tanımlayıcısı (kaynak bağlantı).
  • "col_tag": sıfır olmayan sütunların (hedef dış bağlantıları) benzersiz tanımlayıcılarının listesi.
  • "gt_tag": temel gerçek (hedef dış bağlantılar) olarak kullanılan sıfır olmayan sütunların benzersiz tanımlayıcılarının listesi, train/train_t bölmeleri için boş.

  • Ana Sayfa : https://arxiv.org/abs/2112.02194

  • Kaynak kodu : tfds.structured.web_graph.WebGraph

  • Sürümler :

    • 1.0.0 (varsayılan): İlk sürüm.
  • İndirme boyutu : Unknown size

  • Otomatik önbelleğe alındı ​​( belgeler ): Hayır

  • Özellik yapısı :

FeaturesDict({
    'col_tag': Sequence(tf.int64),
    'gt_tag': Sequence(tf.int64),
    'row_tag': tf.int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
col_tag Sıra (Tensor) (Hiçbiri,) tf.int64
gt_tag Sıra (Tensor) (Hiçbiri,) tf.int64
satır etiketi tensör tf.int64
@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph/seyrek (varsayılan yapılandırma)

  • Yapılandırma açıklaması : WebGraph seyrek, yaklaşık 30B kenar ve yaklaşık 365M düğüm içerir.

  • Veri kümesi boyutu : 273.38 GiB

  • Bölmeler :

Bölmek Örnekler
'test' 39.871.321
'train' 372.049,054
'train_t' 410.867,007

web_graph/yoğun

  • Yapılandırma açıklaması : WebGraph yoğun, yaklaşık 22B kenar ve yaklaşık 136.5M düğüm içerir.

  • Veri kümesi boyutu : 170.87 GiB

  • Bölmeler :

Bölmek Örnekler
'test' 13.256.496
'train' 122.815.749
'train_t' 136.019.364

web_graph/de-seyrek

  • Yapılandırma açıklaması : WebGraph-de-sparse, yaklaşık 1,19B kenar ve yaklaşık 19,7 milyon düğüm içerir.

  • Veri kümesi boyutu : 10.25 GiB

  • Bölmeler :

Bölmek Örnekler
'test' 1.903.443
'train' 17.688.633
'train_t' 19.566.045

web_graph/de-yoğun

  • Yapılandırma açıklaması : WebGraph-de-dense, yaklaşık 0,82B kenar ve yaklaşık 5,7M düğüm içerir.

  • Veri kümesi boyutu : 5.90 GiB

  • Bölmeler :

Bölmek Örnekler
'test' 553.270
'train' 5.118.902
'train_t' 5.672.473

web_graph/seyrek

  • Yapılandırma açıklaması : WebGraph-de-sparse, yaklaşık 0.14B kenar ve yaklaşık 1.5M düğüm içerir.

  • Veri kümesi boyutu : 960.57 MiB

  • Bölmeler :

Bölmek Örnekler
'test' 140.313
'train' 1.309.063
'train_t' 1.445.042

web_graph/in-yoğun

  • Yapılandırma açıklaması : WebGraph-de-dense, yaklaşık 0.12B kenar ve yaklaşık 0,5M düğüm içerir.

  • Veri kümesi boyutu : 711.72 MiB

  • Bölmeler :

Bölmek Örnekler
'test' 47.894
'train' 443.786
'train_t' 491.634