salient_span_wikipedia

 • opis :

Zdania w Wikipedii z oznaczonymi najistotniejszymi rozpiętościami.

@article{guu2020realm,
  title={REALM: Retrieval-Augmented Language Model Pre-Training},
  author={Kelvin Guu and Kenton Lee and Zora Tung and Panupong Pasupat and Ming-Wei Chang},
  year={2020},
  journal = {arXiv e-prints},
  archivePrefix = {arXiv},
  eprint={2002.08909},
}

salient_span_wikipedia/sentences (domyślna konfiguracja)

 • Opis konfiguracji : Przykładami są pojedyncze zdania zawierające byty.

 • Rozmiar zestawu danych : 20.57 GiB

 • Podziały :

Podział Przykłady
'train' 82 291 706
 • Struktura funkcji :
FeaturesDict({
  'spans': Sequence({
    'limit': int32,
    'start': int32,
    'type': string,
  }),
  'text': Text(shape=(), dtype=string),
  'title': Text(shape=(), dtype=string),
})
 • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
FunkcjeDict
rozpiętości Sekwencja
rozpiętości/granica Napinacz int32
przęsła/start Napinacz int32
rozpiętości/typ Napinacz strunowy
tekst Tekst strunowy
tytuł Tekst strunowy

salient_span_wikipedia/documents

 • Opis konfiguracji : Przykłady dotyczą pełnych dokumentów.

 • Rozmiar zestawu danych : 16.52 GiB

 • Podziały :

Podział Przykłady
'train' 13 353 718
 • Struktura funkcji :
FeaturesDict({
  'sentences': Sequence({
    'limit': int32,
    'start': int32,
  }),
  'spans': Sequence({
    'limit': int32,
    'start': int32,
    'type': string,
  }),
  'text': Text(shape=(), dtype=string),
  'title': Text(shape=(), dtype=string),
})
 • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
FunkcjeDict
zdania Sekwencja
zdania/limit Napinacz int32
zdania/początek Napinacz int32
rozpiętości Sekwencja
rozpiętości/granica Napinacz int32
przęsła/start Napinacz int32
rozpiętości/typ Napinacz strunowy
tekst Tekst strunowy
tytuł Tekst strunowy