ekran podsumowania

opis :

SummScreen Zbiór danych podsumowania, wersja bez anonimizacji, bez tokenizacji.

Podziały Train/val/test i filtrowanie są oparte na końcowym ztokenizowanym zbiorze danych, ale dostarczone transkrypty i podsumowania są oparte na nietokenizowanym tekście.

Istnieją dwie funkcje:

transkrypt: pełne transkrypcje odcinków, każda linia dialogu oddzielona znakami nowej linii
Recap: Podsumowania lub streszczenia odcinków
Strona główna : https://github.com/mingdachen/SummScreen
Kod źródłowy : tfds.datasets.summscreen.Builder
Wersje :
- 1.0.0 (domyślnie): Wersja początkowa.
Rozmiar pliku do pobrania : 841.27 MiB
Nadzorowane klucze (zobacz as_supervised doc ): ('transcript', 'recap')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :

@article{DBLP:journals/corr/abs-2104-07091,
  author    = {Mingda Chen and
               Zewei Chu and
               Sam Wiseman and
               Kevin Gimpel},
  title     = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal   = {CoRR},
  volume    = {abs/2104.07091},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.07091},
  archivePrefix = {arXiv},
  eprint    = {2104.07091},
  timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

summscreen/fd (domyślna konfiguracja)

Opis konfiguracji: ForeverDreaming
Rozmiar zestawu danych : 132.99 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :

Podział	Przykłady
`'test'`	337
`'train'`	3673
`'validation'`	338

Struktura funkcji :

FeaturesDict({
    'episode_number': Text(shape=(), dtype=string),
    'episode_title': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
numer_odcinka	Tekst	strunowy
tytuł_odcinka	Tekst	strunowy
podsumowanie	Tekst	strunowy
Pokaż Tytuł	Tekst	strunowy
transkrypcja	Tekst	strunowy
autor_transkrypcji	Tekst	strunowy

Przykłady ( tfds.as_dataframe ):

ekran sumaryczny/tms

Opis konfiguracji: TVMegaSite
Rozmiar zbioru danych : 592.53 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :

Podział	Przykłady
`'test'`	1793
`'train'`	18915
`'validation'`	1795

Struktura funkcji :

FeaturesDict({
    'episode_summary': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'recap_author': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Tensor(shape=(None,), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
podsumowanie_odcinka	Tekst		strunowy
podsumowanie	Tekst		strunowy
recap_author	Tekst		strunowy
Pokaż Tytuł	Tekst		strunowy
transkrypcja	Tekst		strunowy
autor_transkrypcji	Napinacz	(Nic,)	strunowy

Przykłady ( tfds.as_dataframe ):

ekran podsumowania Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

summscreen/fd (domyślna konfiguracja)

ekran sumaryczny/tms

ekran podsumowania