web_graph

  • Descriptif :

Cet ensemble de données contient un graphique clairsemé représentant la structure des liens Web pour un petit sous-ensemble du Web.

C'est une version traitée d'un seul crawl effectué par CommonCrawl en 2021 où nous supprimons tout et ne gardons que la structure lien->liens sortants. L'ensemble de données final est essentiellement au format int -> List[int] avec chaque identifiant entier représentant une URL.

De plus, afin d'augmenter la valeur de cette ressource, nous avons créé 6 versions différentes de WebGraph, chacune variant dans le modèle de parcimonie et les paramètres régionaux. Nous avons suivi les étapes de traitement suivantes, dans l'ordre :

  • Nous avons commencé avec les fichiers WAT du crawl de juin 2021.
  • Étant donné que les liens sortants dans HTTP-Response-Metadata sont stockés sous forme de chemins relatifs, nous les convertissons en chemins absolus à l'aide de urllib après avoir validé chaque lien.
  • Pour étudier les graphes spécifiques aux paramètres régionaux, nous filtrons en outre sur la base de 2 domaines de premier niveau : 'de' et 'in', chacun produisant un graphe avec un ordre de grandeur moins le nombre de nœuds.
  • Ces graphiques peuvent toujours avoir des modèles de parcimonie arbitraires et des liens pendants. Ainsi, nous filtrons davantage les nœuds dans chaque graphe pour avoir un minimum de K ∈ [10, 50] liens entrants et sortants. Notez que nous ne faisons ce traitement qu'une seule fois, il s'agit donc toujours d'une approximation, c'est-à-dire que le graphe résultant peut avoir des nœuds avec moins de K liens.
  • En utilisant à la fois les filtres de paramètres régionaux et de comptage, nous finalisons 6 versions de l'ensemble de données WebGraph, résumées dans le tableau suivant.
Version Domaine de premier niveau Nombre minimum Nb de nœuds Nombre d'arêtes
clairsemé dix 365.4M 30B
dense 50 136.5M 22B
clairsemée de dix 19.7M 1.19B
dé-dense de 50 5.7M 0.82B
en clair dans dix 1.5M 0.14B
dense dans 50 0.5M 0.12B

Toutes les versions de l'ensemble de données ont les fonctionnalités suivantes :

  • "row_tag" : un identifiant unique de la ligne (lien source).
  • "col_tag": une liste d'identifiants uniques de colonnes non nulles (dest outlinks).
  • "gt_tag": une liste d'identifiants uniques de colonnes non nulles utilisées comme vérité terrain (dest outlinks), vide pour les fractionnements train/train_t.

  • Page d' accueil : https://arxiv.org/abs/2112.02194

  • Code source : tfds.structured.web_graph.WebGraph

  • Versions :

    • 1.0.0 (par défaut) : version initiale.
  • Taille du téléchargement : Unknown size

  • Mise en cache automatique ( documentation ): Non

  • Structure des fonctionnalités :

FeaturesDict({
    'col_tag': Sequence(int64),
    'gt_tag': Sequence(int64),
    'row_tag': int64,
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
col_tag Séquence (tenseur) (Aucun,) int64
gt_tag Séquence (tenseur) (Aucun,) int64
row_tag Tenseur int64
@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph/sparse (configuration par défaut)

  • Description de la configuration : WebGraph-sparse contient environ 30 B d'arêtes et environ 365 M de nœuds.

  • Taille du jeu de données : 273.38 GiB

  • Fractionnements :

Diviser Exemples
'test' 39 871 321
'train' 372 049 054
'train_t' 410 867 007

web_graph/dense

  • Description de la configuration : WebGraph-dense contient environ 22 B d'arêtes et environ 136,5 M de nœuds.

  • Taille du jeu de données : 170.87 GiB

  • Fractionnements :

Diviser Exemples
'test' 13 256 496
'train' 122 815 749
'train_t' 136 019 364

web_graph/de-sparse

  • Description de la configuration : WebGraph-de-sparse contient environ 1,19 milliards d'arêtes et environ 19,7 millions de nœuds.

  • Taille du jeu de données : 10.25 GiB

  • Fractionnements :

Diviser Exemples
'test' 1 903 443
'train' 17 688 633
'train_t' 19 566 045

web_graph/de-dense

  • Description de la configuration : WebGraph-de-dense contient environ 0,82 B d'arêtes et environ 5,7 M de nœuds.

  • Taille du jeu de données : 5.90 GiB

  • Fractionnements :

Diviser Exemples
'test' 553 270
'train' 5 118 902
'train_t' 5 672 473

web_graph/in-sparse

  • Description de la configuration : WebGraph-de-sparse contient environ 0,14 B d'arêtes et environ 1,5 M de nœuds.

  • Taille du jeu de données : 960.57 MiB

  • Fractionnements :

Diviser Exemples
'test' 140 313
'train' 1 309 063
'train_t' 1 445 042

web_graph/in-dense

  • Description de la configuration : WebGraph-de-dense contient environ 0,12 B d'arêtes et environ 0,5 M de nœuds.

  • Taille du jeu de données : 711.72 MiB

  • Fractionnements :

Diviser Exemples
'test' 47 894
'train' 443 786
'train_t' 491 634