Merci de vous être connecté à Google I/O. Voir toutes les sessions à la demande Regarder à la demande

wiki40b

  • Descriptif :

Le texte de nettoyage pour plus de 40 langues Wikipédia, les éditions de pages correspondent à des entités. Les ensembles de données ont des divisions train/dev/test par langue. L'ensemble de données est nettoyé par filtrage de page pour supprimer les pages de désambiguïsation, les pages de redirection, les pages supprimées et les pages non-entités. Chaque exemple contient l'identifiant wikidata de l'entité et l'article Wikipédia complet après le traitement de la page qui supprime les sections sans contenu et les objets structurés. Les modèles de langage entraînés sur ce corpus - dont 41 modèles monolingues et 2 modèles multilingues - sont disponibles sur https://tfhub.dev/google/collections/ wiki40b-lm/1.

FeaturesDict({
    'text': Text(shape=(), dtype=string),
    'version_id': Text(shape=(), dtype=string),
    'wikidata_id': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
texte Texte chaîne de caractères
id_version Texte chaîne de caractères
wikidata_id Texte chaîne de caractères
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b/fr (configuration par défaut)

  • Description de la configuration : jeu de données Wiki40B pour en.

  • Taille du jeu de données : 9.91 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 162 274
'train' 2 926 536
'validation' 163 597

wiki40b/ar

  • Description de la configuration : jeu de données Wiki40B pour ar.

  • Taille du jeu de données : 833.20 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 12 271
'train' 220 885
'validation' 12 198

wiki40b/zh-cn

  • Description de la configuration : jeu de données Wiki40B pour zh-cn.

  • Taille du jeu de données : 985.53 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 30 355
'train' 549 672
'validation' 30 299

wiki40b/zh-tw

  • Description de la configuration : jeu de données Wiki40B pour zh-tw.

  • Taille du jeu de données : 986.45 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 30 670
'train' 552 031
'validation' 30 739

wiki40b/nl

  • Description de la configuration : Jeu de données Wiki40B pour nl.

  • Taille du jeu de données : 961.82 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 24 776
'train' 447 555
'validation' 25 201

wiki40b/fr

  • Description de la configuration : jeu de données Wiki40B pour fr.

  • Taille du jeu de données : 3.37 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 68 004
'train' 1 227 206
'validation' 68 655

wiki40b/fr

  • Description de la configuration : jeu de données Wiki40B pour de.

  • Taille du jeu de données : 4.78 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 86 594
'train' 1 554 910
'validation' 86 068

wiki40b/it

  • Description de la configuration : jeu de données Wiki40B pour celui-ci.

  • Taille du jeu de données : 2.00 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 40 443
'train' 732 609
'validation' 40 684

wiki40b/ja

  • Description de la configuration : Jeu de données Wiki40B pour ja.

  • Taille du jeu de données : 2.19 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 41 268
'train' 745 392
'validation' 41 576

wiki40b/ko

  • Description de la configuration : Jeu de données Wiki40B pour ko.

  • Taille du jeu de données : 453.98 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 10 802
'train' 194 977
'validation' 10 805

wiki40b/pl

  • Description de la configuration : Jeu de données Wiki40B pour pl.

  • Taille du jeu de données : 1.03 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 27 987
'train' 505 191
'validation' 28 310

wiki40b/pt

  • Description de la configuration : Jeu de données Wiki40B pour pt.

  • Taille du jeu de données : 1.08 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 22 693
'train' 406 507
'validation' 22 301

wiki40b/ru

  • Description de la configuration : ensemble de données Wiki40B pour ru.

  • Taille du jeu de données : 4.13 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 51 885
'train' 926 037
'validation' 51 287

wiki40b/es

  • Description de la configuration : jeu de données Wiki40B pour es.

  • Taille du jeu de données : 2.70 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 48 764
'train' 872 541
'validation' 48 592

wiki40b/th

  • Description de la configuration : Jeu de données Wiki40B pour th.

  • Taille du jeu de données : 326.29 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 3 114
'train' 56 798
'validation' 3 093

wiki40b/tr

  • Description de la configuration : Jeu de données Wiki40B pour tr.

  • Taille du jeu de données : 308.87 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 7 890
'train' 142 576
'validation' 7 845

wiki40b/bg

  • Description de la configuration : jeu de données Wiki40B pour bg.

  • Taille du jeu de données : 433.20 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 7 289
'train' 130 670
'validation' 7 259

wiki40b/ca

  • Description de la configuration : ensemble de données Wiki40B pour env.

  • Taille du jeu de données : 753.00 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 15 568
'train' 277 313
'validation' 15 362

wiki40b/cs

  • Description de la configuration : Jeu de données Wiki40B pour cs.

  • Taille du jeu de données : 631.84 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 12 984
'train' 235 971
'validation' 13 096

wiki40b/da

  • Description de la configuration : Jeu de données Wiki40B pour da.

  • Taille du jeu de données : 240.51 MiB

  • Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'test' 6 219
'train' 109 486
'validation' 6 173

wiki40b/el

  • Description de la configuration : Jeu de données Wiki40B pour el.

  • Taille du jeu de données : 524.77 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 5 261
'train' 93 596
'validation' 5 130

wiki40b/et

  • Description de la configuration : Jeu de données Wiki40B pour et.

  • Taille du jeu de données : 184.07 MiB

  • Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'test' 6 205
'train' 114 464
'validation' 6 351

wiki40b/fa

  • Description de la configuration : Jeu de données Wiki40B pour fa.

  • Taille du jeu de données : 482.55 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 11 262
'train' 203 145
'validation' 11 180

wiki40b/fi

  • Description de la configuration : Jeu de données Wiki40B pour fi.

  • Taille du jeu de données : 534.13 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 14 179
'train' 255 822
'validation' 13 962

wiki40b/il

  • Description de la configuration : jeu de données Wiki40B pour he.

  • Taille du jeu de données : 869.51 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 9 344
'train' 165 359
'validation' 9 231

wiki40b/salut

  • Description de la configuration : Jeu de données Wiki40B pour hi.

  • Taille du jeu de données : 277.56 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 2 643
'train' 45 737
'validation' 2 596

wiki40b/h

  • Description de la configuration : jeu de données Wiki40B pour hr.

  • Taille du jeu de données : 235.58 MiB

  • Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'test' 5 724
'train' 103 857
'validation' 5 792

wiki40b/hu

  • Description de la configuration : Jeu de données Wiki40B pour hu.

  • Taille du jeu de données : 634.25 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 15 258
'train' 273 248
'validation' 15 208

wiki40b/identifiant

  • Description de la configuration : ensemble de données Wiki40B pour l'identifiant.

  • Taille du jeu de données : 334.06 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 8 598
'train' 156 255
'validation' 8 714

wiki40b/lt

  • Description de la configuration : jeu de données Wiki40B pour lt.

  • Taille du jeu de données : 140.46 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 4 683
'train' 84 854
'validation' 4 754

wiki40b/lv

  • Description de la configuration : jeu de données Wiki40B pour lv.

  • Taille du jeu de données : 80.07 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 1 932
'train' 33 064
'validation' 1 857

wiki40b/ms

  • Description de la configuration : Jeu de données Wiki40B pour ms.

  • Taille du jeu de données : 142.49 MiB

  • Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'test' 5 235
'train' 97 509
'validation' 5 357

wiki40b/non

  • Description de la configuration : jeu de données Wiki40B pour no.

  • Taille du jeu de données : 382.03 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 10 588
'train' 190 588
'validation' 10 547

wiki40b/ro

  • Description de la configuration : ensemble de données Wiki40B pour ro.

  • Taille du jeu de données : 319.68 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 7 870
'train' 139 615
'validation' 7 624

wiki40b/sk

  • Description de la configuration : Jeu de données Wiki40B pour sk.

  • Taille du jeu de données : 170.20 MiB

  • Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'test' 5 741
'train' 103 095
'validation' 5 604

wiki40b/sl

  • Description de la configuration : Jeu de données Wiki40B pour sl.

  • Taille du jeu de données : 157.38 MiB

  • Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'test' 3 341
'train' 60 927
'validation' 3 287

wiki40b/sr

  • Description de la configuration : jeu de données Wiki40B pour sr.

  • Taille du jeu de données : 582.20 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 17 997
'train' 327 313
'validation' 18 100

wiki40b/sv

  • Description de la configuration : Jeu de données Wiki40B pour sv.

  • Taille du jeu de données : 613.62 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 22 291
'train' 400 742
'validation' 22 263

wiki40b/tl

  • Description de la configuration : jeu de données Wiki40B pour tl.

  • Taille du jeu de données : 29.04 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 1 446
'train' 25 940
'validation' 1 472

wiki40b/fr

  • Description de la configuration : ensemble de données Wiki40B pour le Royaume-Uni.

  • Taille du jeu de données : 1.67 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 26 581
'train' 477 618
'validation' 26 324

wiki40b/vi

  • Description de la configuration : Jeu de données Wiki40B pour vi.

  • Taille du jeu de données : 497.70 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 7 942
'train' 146 255
'validation' 8 195