- Descriptif :
Le texte de nettoyage pour plus de 40 langues Wikipédia, les éditions de pages correspondent à des entités. Les ensembles de données ont des divisions train/dev/test par langue. L'ensemble de données est nettoyé par filtrage de page pour supprimer les pages de désambiguïsation, les pages de redirection, les pages supprimées et les pages non-entités. Chaque exemple contient l'identifiant wikidata de l'entité et l'article Wikipédia complet après le traitement de la page qui supprime les sections sans contenu et les objets structurés. Les modèles de langage entraînés sur ce corpus - dont 41 modèles monolingues et 2 modèles multilingues - sont disponibles sur https://tfhub.dev/google/collections/ wiki40b-lm/1.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://research.google/pubs/pub49029/
Code source :
tfds.text.Wiki40b
Versions :
-
1.3.0
(par défaut) : aucune note de version.
-
Taille du téléchargement :
Unknown size
Structure des fonctionnalités :
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
texte | Texte | chaîne de caractères | ||
id_version | Texte | chaîne de caractères | ||
wikidata_id | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/fr (configuration par défaut)
Description de la configuration : jeu de données Wiki40B pour en.
Taille du jeu de données :
9.91 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 162 274 |
'train' | 2 926 536 |
'validation' | 163 597 |
- Exemples ( tfds.as_dataframe ):
wiki40b/ar
Description de la configuration : jeu de données Wiki40B pour ar.
Taille du jeu de données :
833.20 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 12 271 |
'train' | 220 885 |
'validation' | 12 198 |
- Exemples ( tfds.as_dataframe ):
wiki40b/zh-cn
Description de la configuration : jeu de données Wiki40B pour zh-cn.
Taille du jeu de données :
985.53 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 30 355 |
'train' | 549 672 |
'validation' | 30 299 |
- Exemples ( tfds.as_dataframe ):
wiki40b/zh-tw
Description de la configuration : jeu de données Wiki40B pour zh-tw.
Taille du jeu de données :
986.45 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 30 670 |
'train' | 552 031 |
'validation' | 30 739 |
- Exemples ( tfds.as_dataframe ):
wiki40b/nl
Description de la configuration : Jeu de données Wiki40B pour nl.
Taille du jeu de données :
961.82 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 24 776 |
'train' | 447 555 |
'validation' | 25 201 |
- Exemples ( tfds.as_dataframe ):
wiki40b/fr
Description de la configuration : jeu de données Wiki40B pour fr.
Taille du jeu de données :
3.37 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 68 004 |
'train' | 1 227 206 |
'validation' | 68 655 |
- Exemples ( tfds.as_dataframe ):
wiki40b/fr
Description de la configuration : jeu de données Wiki40B pour de.
Taille du jeu de données :
4.78 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 86 594 |
'train' | 1 554 910 |
'validation' | 86 068 |
- Exemples ( tfds.as_dataframe ):
wiki40b/it
Description de la configuration : jeu de données Wiki40B pour celui-ci.
Taille du jeu de données :
2.00 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 40 443 |
'train' | 732 609 |
'validation' | 40 684 |
- Exemples ( tfds.as_dataframe ):
wiki40b/ja
Description de la configuration : Jeu de données Wiki40B pour ja.
Taille du jeu de données :
2.19 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 41 268 |
'train' | 745 392 |
'validation' | 41 576 |
- Exemples ( tfds.as_dataframe ):
wiki40b/ko
Description de la configuration : Jeu de données Wiki40B pour ko.
Taille du jeu de données :
453.98 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 10 802 |
'train' | 194 977 |
'validation' | 10 805 |
- Exemples ( tfds.as_dataframe ):
wiki40b/pl
Description de la configuration : Jeu de données Wiki40B pour pl.
Taille du jeu de données :
1.03 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 27 987 |
'train' | 505 191 |
'validation' | 28 310 |
- Exemples ( tfds.as_dataframe ):
wiki40b/pt
Description de la configuration : Jeu de données Wiki40B pour pt.
Taille du jeu de données :
1.08 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 22 693 |
'train' | 406 507 |
'validation' | 22 301 |
- Exemples ( tfds.as_dataframe ):
wiki40b/ru
Description de la configuration : ensemble de données Wiki40B pour ru.
Taille du jeu de données :
4.13 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 51 885 |
'train' | 926 037 |
'validation' | 51 287 |
- Exemples ( tfds.as_dataframe ):
wiki40b/es
Description de la configuration : jeu de données Wiki40B pour es.
Taille du jeu de données :
2.70 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 48 764 |
'train' | 872 541 |
'validation' | 48 592 |
- Exemples ( tfds.as_dataframe ):
wiki40b/th
Description de la configuration : Jeu de données Wiki40B pour th.
Taille du jeu de données :
326.29 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 3 114 |
'train' | 56 798 |
'validation' | 3 093 |
- Exemples ( tfds.as_dataframe ):
wiki40b/tr
Description de la configuration : Jeu de données Wiki40B pour tr.
Taille du jeu de données :
308.87 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 7 890 |
'train' | 142 576 |
'validation' | 7 845 |
- Exemples ( tfds.as_dataframe ):
wiki40b/bg
Description de la configuration : jeu de données Wiki40B pour bg.
Taille du jeu de données :
433.20 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 7 289 |
'train' | 130 670 |
'validation' | 7 259 |
- Exemples ( tfds.as_dataframe ):
wiki40b/ca
Description de la configuration : ensemble de données Wiki40B pour env.
Taille du jeu de données :
753.00 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 15 568 |
'train' | 277 313 |
'validation' | 15 362 |
- Exemples ( tfds.as_dataframe ):
wiki40b/cs
Description de la configuration : Jeu de données Wiki40B pour cs.
Taille du jeu de données :
631.84 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 12 984 |
'train' | 235 971 |
'validation' | 13 096 |
- Exemples ( tfds.as_dataframe ):
wiki40b/da
Description de la configuration : Jeu de données Wiki40B pour da.
Taille du jeu de données :
240.51 MiB
Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque
shuffle_files=False
(train)Fractionnements :
Diviser | Exemples |
---|---|
'test' | 6 219 |
'train' | 109 486 |
'validation' | 6 173 |
- Exemples ( tfds.as_dataframe ):
wiki40b/el
Description de la configuration : Jeu de données Wiki40B pour el.
Taille du jeu de données :
524.77 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 5 261 |
'train' | 93 596 |
'validation' | 5 130 |
- Exemples ( tfds.as_dataframe ):
wiki40b/et
Description de la configuration : Jeu de données Wiki40B pour et.
Taille du jeu de données :
184.07 MiB
Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque
shuffle_files=False
(train)Fractionnements :
Diviser | Exemples |
---|---|
'test' | 6 205 |
'train' | 114 464 |
'validation' | 6 351 |
- Exemples ( tfds.as_dataframe ):
wiki40b/fa
Description de la configuration : Jeu de données Wiki40B pour fa.
Taille du jeu de données :
482.55 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 11 262 |
'train' | 203 145 |
'validation' | 11 180 |
- Exemples ( tfds.as_dataframe ):
wiki40b/fi
Description de la configuration : Jeu de données Wiki40B pour fi.
Taille du jeu de données :
534.13 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 14 179 |
'train' | 255 822 |
'validation' | 13 962 |
- Exemples ( tfds.as_dataframe ):
wiki40b/il
Description de la configuration : jeu de données Wiki40B pour he.
Taille du jeu de données :
869.51 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 9 344 |
'train' | 165 359 |
'validation' | 9 231 |
- Exemples ( tfds.as_dataframe ):
wiki40b/salut
Description de la configuration : Jeu de données Wiki40B pour hi.
Taille du jeu de données :
277.56 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 643 |
'train' | 45 737 |
'validation' | 2 596 |
- Exemples ( tfds.as_dataframe ):
wiki40b/h
Description de la configuration : jeu de données Wiki40B pour hr.
Taille du jeu de données :
235.58 MiB
Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque
shuffle_files=False
(train)Fractionnements :
Diviser | Exemples |
---|---|
'test' | 5 724 |
'train' | 103 857 |
'validation' | 5 792 |
- Exemples ( tfds.as_dataframe ):
wiki40b/hu
Description de la configuration : Jeu de données Wiki40B pour hu.
Taille du jeu de données :
634.25 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 15 258 |
'train' | 273 248 |
'validation' | 15 208 |
- Exemples ( tfds.as_dataframe ):
wiki40b/identifiant
Description de la configuration : ensemble de données Wiki40B pour l'identifiant.
Taille du jeu de données :
334.06 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 8 598 |
'train' | 156 255 |
'validation' | 8 714 |
- Exemples ( tfds.as_dataframe ):
wiki40b/lt
Description de la configuration : jeu de données Wiki40B pour lt.
Taille du jeu de données :
140.46 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 4 683 |
'train' | 84 854 |
'validation' | 4 754 |
- Exemples ( tfds.as_dataframe ):
wiki40b/lv
Description de la configuration : jeu de données Wiki40B pour lv.
Taille du jeu de données :
80.07 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 932 |
'train' | 33 064 |
'validation' | 1 857 |
- Exemples ( tfds.as_dataframe ):
wiki40b/ms
Description de la configuration : Jeu de données Wiki40B pour ms.
Taille du jeu de données :
142.49 MiB
Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque
shuffle_files=False
(train)Fractionnements :
Diviser | Exemples |
---|---|
'test' | 5 235 |
'train' | 97 509 |
'validation' | 5 357 |
- Exemples ( tfds.as_dataframe ):
wiki40b/non
Description de la configuration : jeu de données Wiki40B pour no.
Taille du jeu de données :
382.03 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 10 588 |
'train' | 190 588 |
'validation' | 10 547 |
- Exemples ( tfds.as_dataframe ):
wiki40b/ro
Description de la configuration : ensemble de données Wiki40B pour ro.
Taille du jeu de données :
319.68 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 7 870 |
'train' | 139 615 |
'validation' | 7 624 |
- Exemples ( tfds.as_dataframe ):
wiki40b/sk
Description de la configuration : Jeu de données Wiki40B pour sk.
Taille du jeu de données :
170.20 MiB
Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque
shuffle_files=False
(train)Fractionnements :
Diviser | Exemples |
---|---|
'test' | 5 741 |
'train' | 103 095 |
'validation' | 5 604 |
- Exemples ( tfds.as_dataframe ):
wiki40b/sl
Description de la configuration : Jeu de données Wiki40B pour sl.
Taille du jeu de données :
157.38 MiB
Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque
shuffle_files=False
(train)Fractionnements :
Diviser | Exemples |
---|---|
'test' | 3 341 |
'train' | 60 927 |
'validation' | 3 287 |
- Exemples ( tfds.as_dataframe ):
wiki40b/sr
Description de la configuration : jeu de données Wiki40B pour sr.
Taille du jeu de données :
582.20 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 17 997 |
'train' | 327 313 |
'validation' | 18 100 |
- Exemples ( tfds.as_dataframe ):
wiki40b/sv
Description de la configuration : Jeu de données Wiki40B pour sv.
Taille du jeu de données :
613.62 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 22 291 |
'train' | 400 742 |
'validation' | 22 263 |
- Exemples ( tfds.as_dataframe ):
wiki40b/tl
Description de la configuration : jeu de données Wiki40B pour tl.
Taille du jeu de données :
29.04 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 446 |
'train' | 25 940 |
'validation' | 1 472 |
- Exemples ( tfds.as_dataframe ):
wiki40b/fr
Description de la configuration : ensemble de données Wiki40B pour le Royaume-Uni.
Taille du jeu de données :
1.67 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 26 581 |
'train' | 477 618 |
'validation' | 26 324 |
- Exemples ( tfds.as_dataframe ):
wiki40b/vi
Description de la configuration : Jeu de données Wiki40B pour vi.
Taille du jeu de données :
497.70 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 7 942 |
'train' | 146 255 |
'validation' | 8 195 |
- Exemples ( tfds.as_dataframe ):