salient_span_wikipedia

  • opis :

Zdania w Wikipedii z oznaczonymi najistotniejszymi rozpiętościami.

@article{guu2020realm,
    title={REALM: Retrieval-Augmented Language Model Pre-Training},
    author={Kelvin Guu and Kenton Lee and Zora Tung and Panupong Pasupat and Ming-Wei Chang},
    year={2020},
    journal = {arXiv e-prints},
    archivePrefix = {arXiv},
    eprint={2002.08909},
}

salient_span_wikipedia/sentences (domyślna konfiguracja)

  • Opis konfiguracji : Przykładami są pojedyncze zdania zawierające byty.

  • Rozmiar zestawu danych : 20.57 GiB

  • Podziały :

Podział Przykłady
'train' 82 291 706
  • Struktura funkcji :
FeaturesDict({
    'spans': Sequence({
        'limit': int32,
        'start': int32,
        'type': string,
    }),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
FunkcjeDict
rozpiętości Sekwencja
rozpiętości/granica Napinacz int32
przęsła/start Napinacz int32
rozpiętości/typ Napinacz strunowy
tekst Tekst strunowy
tytuł Tekst strunowy

salient_span_wikipedia/documents

  • Opis konfiguracji : Przykłady dotyczą pełnych dokumentów.

  • Rozmiar zestawu danych : 16.52 GiB

  • Podziały :

Podział Przykłady
'train' 13 353 718
  • Struktura funkcji :
FeaturesDict({
    'sentences': Sequence({
        'limit': int32,
        'start': int32,
    }),
    'spans': Sequence({
        'limit': int32,
        'start': int32,
        'type': string,
    }),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
FunkcjeDict
zdania Sekwencja
zdania/limit Napinacz int32
zdania/początek Napinacz int32
rozpiętości Sekwencja
rozpiętości/granica Napinacz int32
przęsła/start Napinacz int32
rozpiętości/typ Napinacz strunowy
tekst Tekst strunowy
tytuł Tekst strunowy