wiki40b

  • Description:

Le texte de nettoyage pour les éditions de pages de plus de 40 langues de Wikipédia correspond à des entités. Les ensembles de données ont des divisions train/dev/test par langue. L'ensemble de données est nettoyé par le filtrage des pages pour supprimer les pages de désambiguïsation, les pages de redirection, les pages supprimées et les pages de non-entité. Chaque exemple contient l'identifiant wikidata de l'entité et l'article complet de Wikipédia après le traitement de la page qui supprime les sections sans contenu et les objets structurés. Les modèles linguistiques formés sur ce corpus - dont 41 modèles monolingues, et 2 modèles multilingues - sont disponibles à l' adresse https: //tfhub.dev/ google / collections / wiki40b-lm/1.

FeaturesDict({
    'text': Text(shape=(), dtype=tf.string),
    'version_id': Text(shape=(), dtype=tf.string),
    'wikidata_id': Text(shape=(), dtype=tf.string),
})
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b/en (configuration par défaut)

  • Description Config: jeu de données pour Wiki40B en.

  • Taille Dataset: 9.91 GiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 162 274
'train' 2 926 536
'validation' 163 597

wiki40b/ar

  • Description Config: jeu de données pour Wiki40B ar.

  • Dataset Taille: 833.20 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 12 271
'train' 220 885
'validation' 12.198

wiki40b/zh-cn

  • Description Config: jeu de données Wiki40B pour zh-cn.

  • Dataset Taille: 985.53 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 30 355
'train' 549.672
'validation' 30 299

wiki40b/zh-tw

  • Description Config: jeu de données Wiki40B pour zh-tw.

  • Dataset Taille: 986.45 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 30 670
'train' 552 031
'validation' 30 739

wiki40b/nl

  • Description Config: jeu de données Wiki40B pour nl.

  • Dataset Taille: 961.82 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 24 776
'train' 447 555
'validation' 25 201

wiki40b/fr

  • Description Config: jeu de données Wiki40B pour fr.

  • Taille Dataset: 3.37 GiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 68 004
'train' 1 227 206
'validation' 68 655

wiki40b/de

  • Description Config: jeu de données pour Wiki40B de.

  • Taille Dataset: 4.78 GiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 86 594
'train' 1 554 910
'validation' 86 068

wiki40b/it

  • Description Config: ensemble de données Wiki40B pour elle.

  • Taille Dataset: 2.00 GiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 40 443
'train' 732 609
'validation' 40 684

wiki40b/ja

  • Description Config: jeu de données Wiki40B pour ja.

  • Taille Dataset: 2.19 GiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 41 268
'train' 745 392
'validation' 41 576

wiki40b/ko

  • Description Config: jeu de données Wiki40B pour ko.

  • Dataset Taille: 453.98 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 10 802
'train' 194 977
'validation' 10 805

wiki40b/pl

  • Description Config: jeu de données pour Wiki40B pl.

  • Taille Dataset: 1.03 GiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 27 987
'train' 505.191
'validation' 28 310

wiki40b/pt

  • Description Config: jeu de données Wiki40B pour pt.

  • Taille Dataset: 1.08 GiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 22 693
'train' 406 507
'validation' 22 301

wiki40b/ru

  • Description Config: jeu de données Wiki40B pour ru.

  • Taille Dataset: 4.13 GiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 51 885
'train' 926 037
'validation' 51 287

wiki40b/es

  • Description Config: jeu de données Wiki40B pour es.

  • La taille du jeu de données: 2.70 GiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 48 764
'train' 872 541
'validation' 48 592

wiki40b/th

  • Description Config: jeu de données pour Wiki40B e.

  • Dataset Taille: 326.29 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 3 114
'train' 56 798
'validation' 3 093

wiki40b/tr

  • Description Config: jeu de données Wiki40B pour tr.

  • Dataset Taille: 308.87 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 7 890
'train' 142 576
'validation' 7 845

wiki40b/bg

  • Description Config: jeu de données Wiki40B pour bg.

  • Dataset Taille: 433.20 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 7 289
'train' 130 670
'validation' 7 259

wiki40b/ca

  • Description Config: jeu de données Wiki40B pour ca.

  • Dataset Taille: 753.00 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 15 568
'train' 277 313
'validation' 15 362

wiki40b/cs

  • Description Config: jeu de données Wiki40B pour cs.

  • Dataset Taille: 631.84 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 12 984
'train' 235 971
'validation' 13 096

wiki40b/da

  • Description Config: jeu de données pour Wiki40B da.

  • Dataset Taille: 240.51 MiB

  • Auto-cache ( documentation ): Oui (test, validation), seulement quand shuffle_files=False (train)

  • scissions:

Diviser Exemples
'test' 6 219
'train' 109 486
'validation' 6 173

wiki40b/el

  • Description Config: jeu de données Wiki40B pour el.

  • Dataset Taille: 524.77 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 5 261
'train' 93 596
'validation' 5.130

wiki40b/et

  • Description Config: jeu de données pour Wiki40B et.

  • Dataset Taille: 184.07 MiB

  • Auto-cache ( documentation ): Oui (test, validation), seulement quand shuffle_files=False (train)

  • scissions:

Diviser Exemples
'test' 6 205
'train' 114 464
'validation' 6 351

wiki40b/fa

  • Description Config: jeu de données Wiki40B pour fa.

  • Dataset Taille: 482.55 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 11,262
'train' 203 145
'validation' 11 180

wiki40b/fi

  • Description Config: jeu de données pour Wiki40B fi.

  • Dataset Taille: 534.13 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 14 179
'train' 255 822
'validation' 13 962

wiki40b/il

  • Description Config: ensemble de données Wiki40B pour lui.

  • Dataset Taille: 869.51 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 9 344
'train' 165 359
'validation' 9 231

wiki40b/salut

  • Description Config: jeu de données pour Wiki40B salut.

  • Dataset Taille: 277.56 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 2 643
'train' 45 737
'validation' 2 596

wiki40b/h

  • Description Config: ensemble de données Wiki40B pour hr.

  • Dataset Taille: 235.58 MiB

  • Auto-cache ( documentation ): Oui (test, validation), seulement quand shuffle_files=False (train)

  • scissions:

Diviser Exemples
'test' 5 724
'train' 103 857
'validation' 5 792

wiki40b/hu

  • Description Config: jeu de données Wiki40B pour hu.

  • Dataset Taille: 634.25 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 15 258
'train' 273 248
'validation' 15 208

wiki40b/id

  • Description Config: jeu de données Wiki40B pour id.

  • Dataset Taille: 334.06 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 8 598
'train' 156 255
'validation' 8 714

wiki40b/lt

  • Description Config: jeu de données pour Wiki40B lt.

  • Dataset Taille: 140.46 MiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'test' 4 683
'train' 84 854
'validation' 4 754

wiki40b/lv

  • Description Config: jeu de données Wiki40B pour lv.

  • Dataset Taille: 80.07 MiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'test' 1 932
'train' 33 064
'validation' 1 857

wiki40b/ms

  • Description Config: jeu de données pour Wiki40B ms.

  • Dataset Taille: 142.49 MiB

  • Auto-cache ( documentation ): Oui (test, validation), seulement quand shuffle_files=False (train)

  • scissions:

Diviser Exemples
'test' 5 235
'train' 97 509
'validation' 5 357

wiki40b/non

  • Description Config: ensemble de données Wiki40B pour non.

  • Dataset Taille: 382.03 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 10 588
'train' 190 588
'validation' 10 547

wiki40b/ro

  • Description Config: jeu de données Wiki40B pour ro.

  • Dataset Taille: 319.68 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 7 870
'train' 139 615
'validation' 7 624

wiki40b/sk

  • Description Config: jeu de données Wiki40B pour sk.

  • Dataset Taille: 170.20 MiB

  • Auto-cache ( documentation ): Oui (test, validation), seulement quand shuffle_files=False (train)

  • scissions:

Diviser Exemples
'test' 5 741
'train' 103 095
'validation' 5 604

wiki40b/sl

  • Description Config: jeu de données Wiki40B pour sl.

  • Dataset Taille: 157.38 MiB

  • Auto-cache ( documentation ): Oui (test, validation), seulement quand shuffle_files=False (train)

  • scissions:

Diviser Exemples
'test' 3 341
'train' 60 927
'validation' 3 287

wiki40b/sr

  • Description Config: jeu de données Wiki40B pour sr.

  • Dataset Taille: 582.20 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 17 997
'train' 327 313
'validation' 18 100

wiki40b/sv

  • Description Config: jeu de données Wiki40B pour sv.

  • Dataset Taille: 613.62 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 22 291
'train' 400 742
'validation' 22 263

wiki40b/tl

  • Description Config: jeu de données Wiki40B pour tl.

  • Dataset Taille: 29.04 MiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'test' 1 446
'train' 25 940
'validation' 1 472

wiki40b/fr

  • Description Config: jeu de données pour Wiki40B uk.

  • Taille Dataset: 1.67 GiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 26 581
'train' 477 618
'validation' 26 324

wiki40b/vi

  • Description Config: jeu de données Wiki40B pour vi.

  • Dataset Taille: 497.70 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 7 942
'train' 146 255
'validation' 8 195