Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

wiki40b

  • Deskripsi :

Teks pembersih untuk 40+ edisi bahasa Wikipedia halaman sesuai dengan entitas. Set data memiliki pemisahan train / dev / test per bahasa. Dataset dibersihkan dengan pemfilteran halaman untuk menghapus halaman disambiguasi, halaman redirect, halaman dihapus, dan halaman non-entitas. Setiap contoh berisi id wikidata entitas, dan artikel Wikipedia lengkap setelah pemrosesan halaman yang menghapus bagian non-konten dan objek terstruktur. Model bahasa yang dilatih pada korpus ini - termasuk 41 model satu bahasa, dan 2 model multibahasa - dapat ditemukan di https: //tfhub.dev/google/collections/wiki40b-lm/1.

FeaturesDict({
    'text': Text(shape=(), dtype=tf.string),
    'version_id': Text(shape=(), dtype=tf.string),
    'wikidata_id': Text(shape=(), dtype=tf.string),
})
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b / en (konfigurasi default)

  • Deskripsi konfigurasi : Dataset Wiki40B untuk en.

  • Ukuran 9.91 GiB data : 9.91 GiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 162.274
'train' 2.926.536
'validation' 163.597

wiki40b / ar

  • Deskripsi konfigurasi : Dataset Wiki40B untuk ar.

  • Ukuran 833.20 MiB data : 833.20 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 12.271
'train' 220.885
'validation' 12.198

wiki40b / zh-cn

  • Deskripsi konfigurasi : Dataset Wiki40B untuk zh-cn.

  • Ukuran 985.53 MiB data : 985.53 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 30.355
'train' 549.672
'validation' 30.299

wiki40b / zh-tw

  • Deskripsi konfigurasi : Dataset Wiki40B untuk zh-tw.

  • Ukuran 986.45 MiB data : 986.45 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 30.670
'train' 552.031
'validation' 30.739

wiki40b / nl

  • Deskripsi konfigurasi : Dataset Wiki40B untuk nl.

  • Ukuran 961.82 MiB data : 961.82 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 24.776
'train' 447.555
'validation' 25.201

wiki40b / fr

  • Deskripsi konfigurasi : Dataset Wiki40B untuk fr.

  • Ukuran set data : 3.37 GiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 68.004
'train' 1.227.206
'validation' 68.655

wiki40b / de

  • Deskripsi konfigurasi : Dataset Wiki40B untuk de.

  • Ukuran set data : 4.78 GiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 86.594
'train' 1.554.910
'validation' 86.068

wiki40b / itu

  • Deskripsi konfigurasi : Dataset Wiki40B untuk itu.

  • Ukuran set data : 2.00 GiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 40.443
'train' 732.609
'validation' 40.684

wiki40b / ja

  • Deskripsi konfigurasi : Dataset Wiki40B untuk ja.

  • Ukuran set data : 2.19 GiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 41.268
'train' 745.392
'validation' 41.576

wiki40b / ko

  • Deskripsi konfigurasi : Dataset Wiki40B untuk ko.

  • Ukuran 453.98 MiB data : 453.98 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 10.802
'train' 194.977
'validation' 10.805

wiki40b / pl

  • Deskripsi konfigurasi : Dataset Wiki40B untuk pl.

  • Ukuran kumpulan data : 1.03 GiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 27.987
'train' 505.191
'validation' 28.310

wiki40b / pt

  • Deskripsi konfigurasi : Dataset Wiki40B untuk pt.

  • Ukuran set data : 1.08 GiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 22.693
'train' 406.507
'validation' 22.301

wiki40b / ru

  • Deskripsi konfigurasi : Dataset Wiki40B untuk ru.

  • Ukuran set data : 4.13 GiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 51.885
'train' 926.037
'validation' 51.287

wiki40b / es

  • Deskripsi konfigurasi : Dataset Wiki40B untuk es.

  • Ukuran set data : 2.70 GiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 48.764
'train' 872.541
'validation' 48.592

wiki40b / th

  • Deskripsi konfigurasi : Dataset Wiki40B untuk th.

  • Ukuran 326.29 MiB data : 326.29 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 3.114
'train' 56.798
'validation' 3.093

wiki40b / tr

  • Deskripsi konfigurasi : Dataset Wiki40B untuk tr.

  • Ukuran 308.87 MiB data : 308.87 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 7.890
'train' 142.576
'validation' 7.845

wiki40b / bg

  • Deskripsi konfigurasi : Dataset Wiki40B untuk bg.

  • Ukuran 433.20 MiB data : 433.20 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 7.289
'train' 130.670
'validation' 7.259

wiki40b / ca

  • Deskripsi konfigurasi : Dataset Wiki40B untuk ca.

  • Ukuran 753.00 MiB data : 753.00 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 15.568
'train' 277.313
'validation' 15.362

wiki40b / cs

  • Deskripsi konfigurasi : Dataset Wiki40B untuk cs.

  • Ukuran 631.84 MiB data : 631.84 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 12.984
'train' 235.971
'validation' 13.096

wiki40b / da

  • Deskripsi konfigurasi : Dataset Wiki40B untuk da.

  • Ukuran 240.51 MiB data : 240.51 MiB

  • Cache otomatis ( dokumentasi ): Ya (pengujian, validasi), Hanya jika shuffle_files=False (latih)

  • Split :

Membagi Contoh
'test' 6.219
'train' 109.486
'validation' 6.173

wiki40b / el

  • Deskripsi konfigurasi : Dataset Wiki40B untuk el.

  • Ukuran 524.77 MiB data : 524.77 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 5.261
'train' 93.596
'validation' 5.130

wiki40b / et

  • Deskripsi konfigurasi : Dataset Wiki40B untuk et.

  • Ukuran 184.07 MiB data : 184.07 MiB

  • Cache otomatis ( dokumentasi ): Ya (pengujian, validasi), Hanya jika shuffle_files=False (latih)

  • Split :

Membagi Contoh
'test' 6.205
'train' 114.464
'validation' 6.351

wiki40b / fa

  • Deskripsi konfigurasi : Dataset Wiki40B untuk fa.

  • Ukuran 482.55 MiB data : 482.55 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 11.262
'train' 203.145
'validation' 11.180

wiki40b / fi

  • Deskripsi konfigurasi : Dataset Wiki40B untuk fi.

  • Ukuran 534.13 MiB data : 534.13 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 14.179
'train' 255.822
'validation' 13.962

wiki40b / he

  • Deskripsi konfigurasi : Dataset Wiki40B untuk dia.

  • Ukuran 869.51 MiB data : 869.51 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 9,344
'train' 165.359
'validation' 9.231

wiki40b / hai

  • Deskripsi konfigurasi : Dataset Wiki40B untuk hi.

  • Ukuran 277.56 MiB data : 277.56 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 2.643
'train' 45.737
'validation' 2.596

wiki40b / jam

  • Deskripsi konfigurasi : Dataset Wiki40B untuk jam.

  • Ukuran 235.58 MiB data : 235.58 MiB

  • Cache otomatis ( dokumentasi ): Ya (pengujian, validasi), Hanya jika shuffle_files=False (latih)

  • Split :

Membagi Contoh
'test' 5.724
'train' 103.857
'validation' 5.792

wiki40b / hu

  • Deskripsi konfigurasi : Dataset Wiki40B untuk hu.

  • Ukuran 634.25 MiB data : 634.25 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 15.258
'train' 273.248
'validation' 15.208

wiki40b / id

  • Deskripsi konfigurasi : Dataset Wiki40B untuk id.

  • Ukuran 334.06 MiB data : 334.06 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 8.598
'train' 156.255
'validation' 8.714

wiki40b / lt

  • Deskripsi konfigurasi : Dataset Wiki40B untuk lt.

  • Ukuran 140.46 MiB data : 140.46 MiB

  • Cache otomatis ( dokumentasi ): Ya

  • Split :

Membagi Contoh
'test' 4.683
'train' 84.854
'validation' 4.754

wiki40b / lv

  • Deskripsi konfigurasi : Dataset Wiki40B untuk lv.

  • Ukuran 80.07 MiB data : 80.07 MiB

  • Cache otomatis ( dokumentasi ): Ya

  • Split :

Membagi Contoh
'test' 1.932
'train' 33.064
'validation' 1.857

wiki40b / ms

  • Deskripsi konfigurasi : Dataset Wiki40B untuk ms.

  • Ukuran 142.49 MiB data : 142.49 MiB

  • Cache otomatis ( dokumentasi ): Ya (pengujian, validasi), Hanya jika shuffle_files=False (latih)

  • Split :

Membagi Contoh
'test' 5.235
'train' 97.509
'validation' 5.357

wiki40b / no

  • Deskripsi konfigurasi : Dataset Wiki40B untuk no.

  • Ukuran 382.03 MiB data : 382.03 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 10.588
'train' 190.588
'validation' 10.547

wiki40b / ro

  • Deskripsi konfigurasi : Dataset Wiki40B untuk ro.

  • Ukuran 319.68 MiB data : 319.68 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 7.870
'train' 139.615
'validation' 7.624

wiki40b / sk

  • Deskripsi konfigurasi : Dataset Wiki40B untuk sk.

  • Ukuran 170.20 MiB data : 170.20 MiB

  • Cache otomatis ( dokumentasi ): Ya (pengujian, validasi), Hanya jika shuffle_files=False (latih)

  • Split :

Membagi Contoh
'test' 5.741
'train' 103.095
'validation' 5.604

wiki40b / sl

  • Deskripsi konfigurasi : Dataset Wiki40B untuk sl.

  • Ukuran 157.38 MiB data : 157.38 MiB

  • Cache otomatis ( dokumentasi ): Ya (pengujian, validasi), Hanya jika shuffle_files=False (latih)

  • Split :

Membagi Contoh
'test' 3.341
'train' 60.927
'validation' 3.287

wiki40b / sr

  • Deskripsi konfigurasi : Dataset Wiki40B untuk sr.

  • Ukuran 582.20 MiB data : 582.20 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 17.997
'train' 327.313
'validation' 18.100

wiki40b / sv

  • Deskripsi konfigurasi : Dataset Wiki40B untuk sv.

  • Ukuran 613.62 MiB data : 613.62 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 22.291
'train' 400.742
'validation' 22.263

wiki40b / tl

  • Deskripsi konfigurasi : Dataset Wiki40B untuk tl.

  • Ukuran 29.04 MiB data : 29.04 MiB

  • Cache otomatis ( dokumentasi ): Ya

  • Split :

Membagi Contoh
'test' 1.446
'train' 25.940
'validation' 1.472

wiki40b / uk

  • Deskripsi konfigurasi : Dataset Wiki40B untuk Inggris.

  • Ukuran set data : 1.67 GiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 26.581
'train' 477.618
'validation' 26.324

wiki40b / vi

  • Deskripsi konfigurasi : Dataset Wiki40B untuk vi.

  • Ukuran 497.70 MiB data : 497.70 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'test' 7.942
'train' 146.255
'validation' 8.195