Эта страница была переведа с помощью Cloud Translation API.
Switch to English

c4

  • Описание :

Колоссальная, очищенная версия корпуса веб-сканирования Common Crawl.

На основе набора данных Common Crawl: https://commoncrawl.org

Чтобы создать этот набор данных, следуйте инструкциям от t5 .

Из-за накладных расходов на очистку набора данных рекомендуется подготовить его с помощью распределенной службы, такой как Cloud Dataflow. Больше информации на https://www.tensorflow.org/datasets/beam_datasets

  • Домашняя страница : https://github.com/google-research/text-to-text-transfer-transformer#datasets

  • Исходный код : tfds.text.C4

  • Версии :

    • 3.0.1 (по умолчанию) : без примечаний к выпуску.

    • 2.3.1 : Нет примечаний к выпуску.

    • 2.3.0 : Нет примечаний к выпуску.

    • 2.2.1 : Нет примечаний к выпуску.

    • 2.2.0 : Нет примечаний к выпуску.

  • Размер загрузки : Unknown size

  • Размер набора данных : Unknown size

  • Инструкции по загрузке вручную : для этого набора данных необходимо вручную загрузить исходные данные в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Вы используете конфигурацию C4, которая требует ручной загрузки некоторых файлов. Для c4/webtextlike загрузите OpenWebText.zip с https://mega.nz/#F!EZZD0YwJ!9_PlEQzdMVLaNdKv_ICNVQ Для c4/multilingual и en/noclean загрузите файлы Common Crawl WET.

  • Автоматическое кэширование ( документация ): неизвестно

  • Сплит :

Трещина Примеры
  • Особенности :
FeaturesDict({
    'content-length': Text(shape=(), dtype=tf.string),
    'content-type': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'timestamp': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
  • Контролируемые ключи (см. as_supervised doc ): None

  • Цитата :

@article{2019t5,
  author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
  title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
  journal = {arXiv e-prints},
  year = {2019},
  archivePrefix = {arXiv},
  eprint = {1910.10683},
}

c4 / en (конфигурация по умолчанию)

  • Описание конфигурации : Английский набор данных C4.

c4 / en.noclean

  • Описание конфигурации : отключает всю очистку (дедупликацию, удаление на основе нецензурных слов и т. Д.)

c4 / realnewslike

  • Описание конфигурации : фильтры из конфигурации по умолчанию, чтобы включать только контент из доменов, используемых в наборе данных RealNews (Zellers et al., 2019).

c4 / webtextlike

  • Описание конфигурации : фильтры из конфигурации по умолчанию, чтобы включать только контент из URL-адресов в OpenWebText ( https://github.com/jcpeterson/openwebtext ).

c4 / многоязычный

  • Описание конфигурации : Многоязычный C4 (mC4) имеет 101 язык и генерируется из 71 дампа Common Crawl.