web_graph

  • opis :

Ten zestaw danych zawiera rzadki wykres przedstawiający strukturę łączy internetowych dla małego podzbioru sieci Web.

Jest to przetworzona wersja pojedynczego indeksowania przeprowadzonego przez CommonCrawl w 2021 r., w którym usuwamy wszystko i zachowujemy tylko strukturę link->outlinks. Ostateczny zestaw danych to zasadniczo format int -> List[int] z każdym identyfikatorem liczby całkowitej reprezentującym adres URL.

Ponadto, aby zwiększyć wartość tego zasobu, stworzyliśmy 6 różnych wersji WebGraph, z których każda różni się wzorcem rzadkości i ustawieniami regionalnymi. Podjęliśmy następujące kroki przetwarzania w kolejności:

  • Zaczęliśmy od plików WAT z indeksowania czerwca 2021.
  • Ponieważ łącza wychodzące w HTTP-Response-Metadata są przechowywane jako ścieżki względne, konwertujemy je na ścieżki bezwzględne za pomocą urllib po sprawdzeniu poprawności każdego łącza.
  • Aby zbadać wykresy specyficzne dla ustawień regionalnych, dalej filtrujemy na podstawie 2 domen najwyższego poziomu: „de” i „in”, z których każda tworzy wykres o rząd wielkości mniejszej liczby węzłów.
  • Te wykresy mogą nadal zawierać dowolne wzorce rzadkości i wiszące połączenia. W ten sposób dalej filtrujemy węzły na każdym grafie, aby mieć minimum K ∈ [10, 50] łączy przychodzących i wychodzących. Zauważ, że wykonujemy to przetwarzanie tylko raz, więc nadal jest to przybliżenie, tj. wynikowy graf może mieć węzły z mniej niż K linkami.
  • Używając zarówno ustawień regionalnych, jak i filtrów liczby, finalizujemy 6 wersji zestawu danych WebGraph, podsumowanych w poniższej tabeli.
Wersja Domena najwyższego poziomu Minimalna liczba Liczba węzłów Liczba krawędzi
rzadki 10 365,4 mln 30B
gęsty 50 136,5 mln 22B
rzadkie de 10 19,7 mln 1.19B
odgęścić de 50 5,7 mln 0,82B
rzadkie w 10 1,5 mln 0,14B
gęsty w 50 0,5 miliona 0,12B

Wszystkie wersje zestawu danych mają następujące funkcje:

  • „row_tag”: unikalny identyfikator wiersza (łącze źródłowe).
  • „col_tag”: lista unikalnych identyfikatorów niezerowych kolumn (docelowe łącza wychodzące).
  • „gt_tag”: lista unikalnych identyfikatorów niezerowych kolumn używanych jako podstawowa prawda (dest outlinks), pusta dla podziałów train/train_t.

  • Strona główna : https://arxiv.org/abs/2112.02194

  • Kod źródłowy : tfds.structured.web_graph.WebGraph

  • Wersje :

    • 1.0.0 (domyślnie): Wersja początkowa.
  • Rozmiar pliku do pobrania : Unknown size

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Struktura funkcji :

FeaturesDict({
    'col_tag': Sequence(int64),
    'gt_tag': Sequence(int64),
    'row_tag': int64,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
znacznik_kolumny Sekwencja (Tensor) (Nic,) int64
gt_tag Sekwencja (Tensor) (Nic,) int64
tag_wiersza Napinacz int64
@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph/sparse (domyślna konfiguracja)

  • Opis konfiguracji: WebGraph-sparse zawiera około 30B krawędzi i około 365M węzłów.

  • Rozmiar zestawu danych : 273.38 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 39 871 321
'train' 372 049 054
'train_t' 410 867 007

web_graph/gęsty

  • Opis konfiguracji: WebGraph-dense zawiera około 22B krawędzi i około 136,5 mln węzłów.

  • Rozmiar zestawu danych : 170.87 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 13 256 496
'train' 122 815 749
'train_t' 136 019 364

web_graph/de-sparse

  • Opis konfiguracji: WebGraph-de-sparse zawiera około 1,19 miliarda krawędzi i około 19,7 miliona węzłów.

  • Rozmiar zestawu danych : 10.25 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 1 903 443
'train' 17 688 633
'train_t' 19 566 045

web_graph/de-dense

  • Opis konfiguracji: WebGraph-de-dense zawiera około 0,82B krawędzi i około 5,7M węzłów.

  • Rozmiar zestawu danych : 5.90 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 553270
'train' 5118902
'train_t' 5 672 473

web_graph/in-sparse

  • Opis konfiguracji: WebGraph-de-sparse zawiera około 0,14 B krawędzi i około 1,5 mln węzłów.

  • Rozmiar zbioru danych : 960.57 MiB

  • Podziały :

Rozdzielać Przykłady
'test' 140313
'train' 1 309 063
'train_t' 1 445 042

web_graph/in-dense

  • Opis konfiguracji: WebGraph-de-dense zawiera około 0,12B krawędzi i około 0,5M węzłów.

  • Rozmiar zbioru danych : 711.72 MiB

  • Podziały :

Rozdzielać Przykłady
'test' 47 894
'train' 443 786
'train_t' 491634