Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

wiki40b

  • opis:

Tekst porządkowy dla wydań stron w ponad 40 językach Wikipedii odpowiada podmiotom. Zestawy danych mają podziały na trenowanie/tworzenie/testowanie na język. Zestaw danych jest czyszczony przez filtrowanie stron w celu usunięcia stron ujednoznaczniających, stron przekierowujących, stron usuniętych i stron niebędących elementami. Każdy przykład zawiera identyfikator wikidata jednostki oraz pełny artykuł Wikipedii po przetworzeniu strony, który usuwa sekcje bez treści i obiekty strukturalne. Modele językowe przeszkolonych w tym korpusie - w tym 41 modeli jednojęzycznych, wielojęzycznych i 2 modele - można znaleźć na stronie https: //tfhub.dev/ google / kolekcje / wiki40b-lm/1.

FeaturesDict({
    'text': Text(shape=(), dtype=tf.string),
    'version_id': Text(shape=(), dtype=tf.string),
    'wikidata_id': Text(shape=(), dtype=tf.string),
})
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b/pl (domyślna konfiguracja)

  • Opis config: Wiki40B zbiór danych na pl.

  • Zbiór danych rozmiar: 9.91 GiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 162,274
'train' 2 926 536
'validation' 163 597

wiki40b/ar

  • Opis config: Wiki40B zestaw danych dla AR.

  • Zbiór danych rozmiar: 833.20 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 12,271
'train' 220 885
'validation' 12198

wiki40b/zh-cn

  • Opis config: Wiki40B zestaw danych dla zh-CN.

  • Zbiór danych rozmiar: 985.53 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 30 355
'train' 549,672
'validation' 30,299

wiki40b/zh-tw

  • Opis config: Wiki40B zestaw danych dla zh-tw.

  • Zbiór danych rozmiar: 986.45 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 30 670
'train' 552.031
'validation' 30 739

wiki40b/pl

  • Opis config: Wiki40B zbiór danych do NL.

  • Zbiór danych rozmiar: 961.82 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 24,776
'train' 447 555
'validation' 25,201

wiki40b/fr

  • Opis config: Wiki40B zestaw danych dla ks.

  • Zestaw danych rozmiar: 3.37 GiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 68,004
'train' 1 227 206
'validation' 68 655

wiki40b/de

  • Opis config: Wiki40B zbiór danych do de.

  • Zbiór danych rozmiar: 4.78 GiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 86,594
'train' 1 554 910
'validation' 86,068

wiki40b/it

  • Opis config: Wiki40B zbiór danych do niego.

  • Zestaw danych rozmiar: 2.00 GiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 40,443
'train' 732 609
'validation' 40,684

wiki40b/ja

  • Opis config: Wiki40B zestaw danych dla JA.

  • Zestaw danych rozmiar: 2.19 GiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 41 268
'train' 745 392
'validation' 41 576

wiki40b/ko

  • Opis config: Wiki40B zbiór danych do ko.

  • Zbiór danych rozmiar: 453.98 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 10 802
'train' 194,977
'validation' 10,805

wiki40b/pl

  • Opis config: Wiki40B zbiór danych na pl.

  • Zbiór danych rozmiar: 1.03 GiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 27 987
'train' 505,191
'validation' 28,310

wiki40b/pt

  • Opis config: Wiki40B zbiór danych do pt.

  • Zbiór danych rozmiar: 1.08 GiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 22 693
'train' 406,507
'validation' 22 301

wiki40b/ru

  • Opis config: Wiki40B zestaw danych dla RU.

  • Zestaw danych rozmiar: 4.13 GiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 51,885
'train' 926,037
'validation' 51 287

wiki40b/pl

  • Opis config: Wiki40B zestaw danych dla ES.

  • Zbiór danych rozmiar: 2.70 GiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 48 764
'train' 872 541
'validation' 48 592

wiki40b/th

  • Opis config: Wiki40B zestaw danych dla th.

  • Zbiór danych rozmiar: 326.29 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 3 114
'train' 56 798
'validation' 3093

wiki40b/tr

  • Opis config: Wiki40B zestaw danych dla tr.

  • Zbiór danych rozmiar: 308.87 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 7890
'train' 142,576
'validation' 7845

wiki40b/bg

  • Opis config: Wiki40B zbiór danych na bg.

  • Zbiór danych rozmiar: 433.20 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 7289
'train' 130 670
'validation' 7259

wiki40b/ca

  • Opis config: Wiki40B zbiór danych do ok

  • Zbiór danych rozmiar: 753.00 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 15 568
'train' 277 313
'validation' 15,362

wiki40b/cs

  • Opis config: Wiki40B zbiór danych do cs.

  • Zbiór danych rozmiar: 631.84 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 12 984
'train' 235 971
'validation' 13 096

wiki40b/da

  • Opis config: Wiki40B zestaw danych dla da.

  • Zbiór danych rozmiar: 240.51 MiB

  • Auto-buforowane ( dokumentacja ) Tak (badanie, zatwierdzanie), jedynie gdy shuffle_files=False (pociąg)

  • dzieli:

Podział Przykłady
'test' 6219
'train' 109 486
'validation' 6173

wiki40b/el

  • Opis config: Wiki40B zestaw danych dla El.

  • Zbiór danych rozmiar: 524.77 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 5,261
'train' 93 596
'validation' 5130

wiki40b/et

  • Opis config: Wiki40B zbiór danych do ET.

  • Zbiór danych rozmiar: 184.07 MiB

  • Auto-buforowane ( dokumentacja ) Tak (badanie, zatwierdzanie), jedynie gdy shuffle_files=False (pociąg)

  • dzieli:

Podział Przykłady
'test' 6205
'train' 114 464
'validation' 6,351

wiki40b/fa

  • Opis config: Wiki40B zestaw danych dla fa.

  • Zbiór danych rozmiar: 482.55 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 11 262
'train' 203,145
'validation' 11180

wiki40b/fi

  • Opis config: Wiki40B zbiór danych do Internetu.

  • Zbiór danych rozmiar: 534.13 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 14179
'train' 255 822
'validation' 13 962

wiki40b/on

  • Opis config: Wiki40B zbiór danych do niego.

  • Zbiór danych rozmiar: 869.51 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 9 344
'train' 165 359
'validation' 9231

wiki40b/hi

  • Opis config: Wiki40B zestaw danych dla HI.

  • Zbiór danych rozmiar: 277.56 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 2643
'train' 45 737
'validation' 2596

wiki40b/godz.

  • Opis config: Wiki40B zbiór danych do godz.

  • Zbiór danych rozmiar: 235.58 MiB

  • Auto-buforowane ( dokumentacja ) Tak (badanie, zatwierdzanie), jedynie gdy shuffle_files=False (pociąg)

  • dzieli:

Podział Przykłady
'test' 5724
'train' 103,857
'validation' 5792

wiki40b/hu

  • Opis config: Wiki40B zbiór danych do hu.

  • Zbiór danych rozmiar: 634.25 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 15 258
'train' 273 248
'validation' 15,208

wiki40b/id

  • Opis config: Wiki40B zestaw danych dla id.

  • Zbiór danych rozmiar: 334.06 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 8598
'train' 156,255
'validation' 8714

wiki40b/lt

  • Opis konfiguracji: Wiki40B zestaw danych na LT.

  • Zbiór danych rozmiar: 140.46 MiB

  • Auto-buforowane ( dokumentacja ): Tak

  • dzieli:

Podział Przykłady
'test' 4683
'train' 84,854
'validation' 4754

wiki40b/poziom

  • Opis config: Wiki40B zestaw danych dla LV.

  • Zbiór danych rozmiar: 80.07 MiB

  • Auto-buforowane ( dokumentacja ): Tak

  • dzieli:

Podział Przykłady
'test' 1932
'train' 33 064
'validation' 1857

wiki40b/ms

  • Opis config: Wiki40B zestaw danych dla ms.

  • Zbiór danych rozmiar: 142.49 MiB

  • Auto-buforowane ( dokumentacja ) Tak (badanie, zatwierdzanie), jedynie gdy shuffle_files=False (pociąg)

  • dzieli:

Podział Przykłady
'test' 5,235
'train' 97 509
'validation' 5357

wiki40b/nie

  • Opis config: Wiki40B zbiór danych na nie.

  • Zbiór danych rozmiar: 382.03 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 10 588
'train' 190 588
'validation' 10 547

wiki40b/ro

  • Opis config: Wiki40B zestaw danych dla ro.

  • Zbiór danych rozmiar: 319.68 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 7870
'train' 139 615
'validation' 7624

wiki40b/sk

  • Opis config: Wiki40B zestaw danych dla SK.

  • Zbiór danych rozmiar: 170.20 MiB

  • Auto-buforowane ( dokumentacja ) Tak (badanie, zatwierdzanie), jedynie gdy shuffle_files=False (pociąg)

  • dzieli:

Podział Przykłady
'test' 5741
'train' 103,095
'validation' 5604

wiki40b/sl

  • Opis config: Wiki40B zestaw danych dla SL.

  • Zbiór danych rozmiar: 157.38 MiB

  • Auto-buforowane ( dokumentacja ) Tak (badanie, zatwierdzanie), jedynie gdy shuffle_files=False (pociąg)

  • dzieli:

Podział Przykłady
'test' 3,341
'train' 60 927
'validation' 3287

wiki40b/sr

  • Opis config: Wiki40B zestaw danych dla sr.

  • Zbiór danych rozmiar: 582.20 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 17 997
'train' 327 313
'validation' 18 100

wiki40b/sv

  • Opis config: Wiki40B zestaw danych dla sv.

  • Zbiór danych rozmiar: 613.62 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 22 291
'train' 400 742
'validation' 22,263

wiki40b/tl

  • Opis config: Wiki40B zestaw danych dla tl.

  • Zbiór danych rozmiar: 29.04 MiB

  • Auto-buforowane ( dokumentacja ): Tak

  • dzieli:

Podział Przykłady
'test' 1446
'train' 25 940
'validation' 1472

wiki40b/uk

  • Opis config: Wiki40B zestaw danych dla Wielkiej Brytanii.

  • Zestaw danych rozmiar: 1.67 GiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 26 581
'train' 477 618
'validation' 26.324

wiki40b/vi

  • Opis config: Wiki40B zestaw danych dla vi.

  • Zbiór danych rozmiar: 497.70 MiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test' 7942
'train' 146 255
'validation' 8195