c4_wsrs

  • opis :

Zestaw danych rozszerzeń skrótów medycznych, który stosuje odwrotne podstawienie w skali sieci (wsrs) do zbioru danych C4, który jest kolosalną, oczyszczoną wersją korpusu indeksowania sieci Common Crawl.

Oryginalnym źródłem jest zbiór danych Common Crawl: https://commoncrawl.org

Podział Przykłady
'train' 9575852
'validation' 991422
  • Struktura funkcji :
FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
FunkcjeDict
skrócony_fragment Tekst strunowy
oryginalny_fragment Tekst strunowy
  • Cytat :

c4_wsrs/default (domyślna konfiguracja)