- Описание:
Очищенный текст для 40+ языков Википедии, версии страниц соответствуют сущностям. В наборах данных есть разделение на обучение / разработку / тестирование для каждого языка. Набор данных очищается путем фильтрации страниц для удаления страниц с неоднозначностью, страниц перенаправления, удаленных страниц и страниц, не являющихся объектами. Каждый пример содержит идентификатор викиданных объекта и полную статью Википедии после обработки страницы, которая удаляет разделы, не относящиеся к содержанию, и структурированные объекты. Модели языка обученные на этом корпусе - в том числе 41 одноязычных моделей и 2 многоязычных моделей - можно найти по адресу https: //tfhub.dev/ Google / коллекции / wiki40b-lm / 1.
Домашняя страница: https://research.google/pubs/pub49029/
Исходный код:
tfds.text.Wiki40b
Версии:
-
1.3.0
( по умолчанию): Нет Замечания к выпуску.
-
Размер загрузки:
Unknown size
Особенности:
FeaturesDict({
'text': Text(shape=(), dtype=tf.string),
'version_id': Text(shape=(), dtype=tf.string),
'wikidata_id': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см
as_supervised
документ ):None
Рис ( tfds.show_examples ): Не поддерживается.
Образец цитирования:
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b / en (конфигурация по умолчанию)
Описание Config: Wiki40B набор данных для ванной.
Dataset Размер:
9.91 GiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 162 274 |
'train' | 2 926 536 |
'validation' | 163 597 |
- Примеры ( tfds.as_dataframe ):
wiki40b / ar
Описание Config: Wiki40B набор данные для ара.
Dataset Размер:
833.20 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 12 271 |
'train' | 220 885 |
'validation' | 12 198 |
- Примеры ( tfds.as_dataframe ):
wiki40b / zh-cn
Описание Config: Wiki40B набор данных для ZH-сп.
Dataset Размер:
985.53 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 30 355 |
'train' | 549 672 |
'validation' | 30 299 |
- Примеры ( tfds.as_dataframe ):
wiki40b / zh-tw
Описание Config: Wiki40B набор данных для ZH-TW.
Dataset Размер:
986.45 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 30 670 |
'train' | 552 031 |
'validation' | 30 739 |
- Примеры ( tfds.as_dataframe ):
wiki40b / nl
Описание Config: Wiki40B набор данных для нл.
Dataset Размер:
961.82 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 24 776 |
'train' | 447 555 |
'validation' | 25 201 |
- Примеры ( tfds.as_dataframe ):
wiki40b / fr
Описание Config: Wiki40B набор данных для фр.
Dataset Размер:
3.37 GiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 68 004 |
'train' | 1,227,206 |
'validation' | 68 655 |
- Примеры ( tfds.as_dataframe ):
wiki40b / de
Описание Config: Wiki40B набор данных для де.
Dataset Размер:
4.78 GiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 86 594 |
'train' | 1,554,910 |
'validation' | 86 068 |
- Примеры ( tfds.as_dataframe ):
wiki40b / it
Описание Config: Wiki40B набора данных для него.
Dataset Размер:
2.00 GiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 40 443 |
'train' | 732 609 |
'validation' | 40 684 |
- Примеры ( tfds.as_dataframe ):
wiki40b / ja
Описание Config: Wiki40B набор данных для JA.
Dataset Размер:
2.19 GiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 41 268 |
'train' | 745 392 |
'validation' | 41 576 |
- Примеры ( tfds.as_dataframe ):
wiki40b / ko
Описание Config: Wiki40B набор данных для Ко.
Dataset Размер:
453.98 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 10,802 |
'train' | 194 977 |
'validation' | 10 805 |
- Примеры ( tfds.as_dataframe ):
wiki40b / pl
Описание Config: Wiki40B набор данных для пл.
Dataset Размер:
1.03 GiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 27 987 |
'train' | 505 191 |
'validation' | 28 310 |
- Примеры ( tfds.as_dataframe ):
wiki40b / pt
Описание Config: Wiki40B набор данных для пт.
Dataset Размер:
1.08 GiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 22 693 |
'train' | 406 507 |
'validation' | 22 301 |
- Примеры ( tfds.as_dataframe ):
wiki40b / ru
Описание Config: Wiki40B набор данных для ру.
Dataset Размер:
4.13 GiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 51 885 |
'train' | 926 037 |
'validation' | 51 287 |
- Примеры ( tfds.as_dataframe ):
wiki40b / es
Описание Config: Wiki40B набор данных для РПС.
Dataset Размер:
2.70 GiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 48 764 |
'train' | 872 541 |
'validation' | 48 592 |
- Примеры ( tfds.as_dataframe ):
wiki40b / th
Описание Config: Wiki40B набор данные для я.
Dataset Размер:
326.29 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 3114 |
'train' | 56 798 |
'validation' | 3093 |
- Примеры ( tfds.as_dataframe ):
wiki40b / tr
Описание Config: Wiki40B набор данных для тр.
Dataset Размер:
308.87 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 7 890 |
'train' | 142 576 |
'validation' | 7 845 |
- Примеры ( tfds.as_dataframe ):
wiki40b / bg
Описание Config: Wiki40B набор данных для БГ.
Dataset Размер:
433.20 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 7 289 |
'train' | 130 670 |
'validation' | 7 259 |
- Примеры ( tfds.as_dataframe ):
wiki40b / ca
Описание Config: Wiki40B набор данных для ca.
Dataset Размер:
753.00 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 15,568 |
'train' | 277 313 |
'validation' | 15 362 |
- Примеры ( tfds.as_dataframe ):
wiki40b / cs
Описание Config: Wiki40B набор данных для сСт.
Dataset Размер:
631.84 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 12 984 |
'train' | 235 971 |
'validation' | 13 096 |
- Примеры ( tfds.as_dataframe ):
wiki40b / da
Описание Config: Wiki40B набор данных для йа.
Dataset Размер:
240.51 MiB
Авто-кэшируются ( документация ): Да (испытание, проверка), только когда
shuffle_files=False
(поезд)расколы:
Расколоть | Примеры |
---|---|
'test' | 6 219 |
'train' | 109 486 |
'validation' | 6 173 |
- Примеры ( tfds.as_dataframe ):
wiki40b / el
Описание Config: Wiki40B набор данных для эл.
Dataset Размер:
524.77 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 5 261 |
'train' | 93 596 |
'validation' | 5 130 |
- Примеры ( tfds.as_dataframe ):
wiki40b / et
Описание Config: Wiki40B набор данных для др.
Dataset Размер:
184.07 MiB
Авто-кэшируются ( документация ): Да (испытание, проверка), только когда
shuffle_files=False
(поезд)расколы:
Расколоть | Примеры |
---|---|
'test' | 6 205 |
'train' | 114 464 |
'validation' | 6 351 |
- Примеры ( tfds.as_dataframe ):
wiki40b / fa
Описание Config: Wiki40B набор данных для фа.
Dataset Размер:
482.55 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 11 262 |
'train' | 203 145 |
'validation' | 11 180 |
- Примеры ( tfds.as_dataframe ):
wiki40b / fi
Описание Config: Wiki40B набор данных для фи.
Dataset Размер:
534.13 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 14 179 |
'train' | 255 822 |
'validation' | 13 962 |
- Примеры ( tfds.as_dataframe ):
wiki40b / he
Описание Config: Wiki40B набор данных для его.
Dataset Размер:
869.51 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 9 344 |
'train' | 165 359 |
'validation' | 9 231 |
- Примеры ( tfds.as_dataframe ):
wiki40b / привет
Описание Config: Wiki40B набор данные для привета.
Dataset Размер:
277.56 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 2 643 |
'train' | 45 737 |
'validation' | 2,596 |
- Примеры ( tfds.as_dataframe ):
wiki40b / час
Описание Config: Wiki40B набор данных для часов.
Dataset Размер:
235.58 MiB
Авто-кэшируются ( документация ): Да (испытание, проверка), только когда
shuffle_files=False
(поезд)расколы:
Расколоть | Примеры |
---|---|
'test' | 5724 |
'train' | 103 857 |
'validation' | 5792 |
- Примеры ( tfds.as_dataframe ):
wiki40b / hu
Описание Config: Wiki40B набор данных для Hu.
Dataset Размер:
634.25 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 15 258 |
'train' | 273 248 |
'validation' | 15 208 |
- Примеры ( tfds.as_dataframe ):
wiki40b / id
Описание Config: Wiki40B набор данных для идентификатора.
Dataset Размер:
334.06 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 8 598 |
'train' | 156 255 |
'validation' | 8 714 |
- Примеры ( tfds.as_dataframe ):
wiki40b / lt
Описание конфигурации: Wiki40B набор данных для л.
Dataset Размер:
140.46 MiB
Авто-кэшируются ( документация ): Да
расколы:
Расколоть | Примеры |
---|---|
'test' | 4683 |
'train' | 84 854 |
'validation' | 4 754 |
- Примеры ( tfds.as_dataframe ):
wiki40b / lv
Описание Config: Wiki40B набор данных для левов.
Dataset Размер:
80.07 MiB
Авто-кэшируются ( документация ): Да
расколы:
Расколоть | Примеры |
---|---|
'test' | 1,932 |
'train' | 33 064 |
'validation' | 1,857 |
- Примеры ( tfds.as_dataframe ):
wiki40b / ms
Описание конфигурации: Wiki40B набор данных для мс.
Dataset Размер:
142.49 MiB
Авто-кэшируются ( документация ): Да (испытание, проверка), только когда
shuffle_files=False
(поезд)расколы:
Расколоть | Примеры |
---|---|
'test' | 5 235 |
'train' | 97 509 |
'validation' | 5 357 |
- Примеры ( tfds.as_dataframe ):
wiki40b / нет
Описание Config: Wiki40B набор данных для нет.
Dataset Размер:
382.03 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 10 588 |
'train' | 190 588 |
'validation' | 10 547 |
- Примеры ( tfds.as_dataframe ):
wiki40b / ro
Описание Config: Wiki40B набор данных для ро.
Dataset Размер:
319.68 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 7 870 |
'train' | 139 615 |
'validation' | 7 624 |
- Примеры ( tfds.as_dataframe ):
wiki40b / sk
Описание Config: Wiki40B набор данные для ска.
Dataset Размер:
170.20 MiB
Авто-кэшируются ( документация ): Да (испытание, проверка), только когда
shuffle_files=False
(поезд)расколы:
Расколоть | Примеры |
---|---|
'test' | 5741 |
'train' | 103 095 |
'validation' | 5 604 |
- Примеры ( tfds.as_dataframe ):
wiki40b / sl
Описание Config: Wiki40B набор данных для сл.
Dataset Размер:
157.38 MiB
Авто-кэшируются ( документация ): Да (испытание, проверка), только когда
shuffle_files=False
(поезд)расколы:
Расколоть | Примеры |
---|---|
'test' | 3 341 |
'train' | 60 927 |
'validation' | 3 287 |
- Примеры ( tfds.as_dataframe ):
wiki40b / sr
Описание Config: Wiki40B набор данных для стер.
Dataset Размер:
582.20 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 17 997 |
'train' | 327 313 |
'validation' | 18 100 |
- Примеры ( tfds.as_dataframe ):
wiki40b / sv
Описание Config: Wiki40B набор данных для св.
Dataset Размер:
613.62 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 22 291 |
'train' | 400 742 |
'validation' | 22 263 |
- Примеры ( tfds.as_dataframe ):
wiki40b / tl
Описание Config: Wiki40B набор данных для ТЛ.
Dataset Размер:
29.04 MiB
Авто-кэшируются ( документация ): Да
расколы:
Расколоть | Примеры |
---|---|
'test' | 1,446 |
'train' | 25 940 |
'validation' | 1,472 |
- Примеры ( tfds.as_dataframe ):
wiki40b / uk
Описание Config: Wiki40B набор данных для Великобритании.
Dataset Размер:
1.67 GiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 26 581 |
'train' | 477 618 |
'validation' | 26 324 |
- Примеры ( tfds.as_dataframe ):
wiki40b / vi
Описание Config: Wiki40B набор данных для VI.
Dataset Размер:
497.70 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 7 942 |
'train' | 146 255 |
'validation' | 8 195 |
- Примеры ( tfds.as_dataframe ):