c4_wsrs

Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

  • Описание :

Набор данных расширения медицинских аббревиатур, который применяет обратную замену в веб-масштабе (wsrs) к набору данных C4, который представляет собой колоссальную, очищенную версию корпуса веб-сканирования Common Crawl.

Исходным источником является набор данных Common Crawl: https://commoncrawl.org .

Расколоть Примеры
'train' 9 575 852
'validation' 991 422
  • Структура функции :
FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
сокращенный_фрагмент Текст нить
original_snippet Текст нить
  • Цитата :

c4_wsrs/default (конфигурация по умолчанию)