reddit_tifu

  • opis :

Zbiór danych Reddit, gdzie TIFU oznacza nazwę subbreddit /r/tifu. Jak zdefiniowano w publikacji, styl „short” używa tytułu jako podsumowania, a „długi” używa tldr jako podsumowania.

Funkcje obejmują:

  • dokument: tekst posta bez tldr.
  • tldr: linia tldr.
  • tytuł: przycięty tytuł bez tldr.
  • plusy: plusy.
  • wynik: wynik.
  • num_comments: liczba komentarzy.
  • upvote_ratio: współczynnik poparcia.

  • Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na

  • Strona główna : https://github.com/ctr4si/MMN

  • Kod źródłowy : tfds.datasets.reddit_tifu.Builder

  • Wersje :

    • 1.1.0 : Usuń pusty dokument i łańcuchy podsumowań.
    • 1.1.1 : Dodaj podziały na pociąg, tworzenie i testowanie (80/10/10), które są używane w PEGASUS ( https://arxiv.org/abs/1912.08777 ) w osobnej konfiguracji. Zostały one utworzone losowo przy użyciu funkcji podziału tfds i są udostępniane, aby zapewnić powtarzalność i porównywalność wyników na Reddit Tifu Long.Do punktów danych dodaj również id .
    • 1.1.2 (domyślnie): przesłano poprawione podziały.
  • Struktura funkcji :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
FunkcjeDict
dokumenty Tekst strunowy
ID Tekst strunowy
liczba_komentarzy Napinacz pływak32
wynik Napinacz pływak32
tytuł Tekst strunowy
tldr Tekst strunowy
UPS Napinacz pływak32
upvote_ratio Napinacz pływak32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (domyślna konfiguracja)

  • Opis konfiguracji : Używanie tytułu jako podsumowania.

  • Rozmiar pliku do pobrania : 639.54 MiB

  • Rozmiar zestawu danych : 141.46 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tylko wtedy, gdy shuffle_files=False (pociąg)

  • Podziały :

Podział Przykłady
'train' 79740

reddit_tifu/long

  • Opis konfiguracji: Używanie TLDR jako podsumowania.

  • Rozmiar pliku do pobrania : 639.54 MiB

  • Rozmiar zestawu danych : 93.10 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Podział Przykłady
'train' 42139

reddit_tifu/long_split

  • Opis konfiguracji: Używanie TLDR jako podsumowania i zwrotów podziałów pociąg/test/programista.

  • Rozmiar pliku do pobrania : 639.94 MiB

  • Rozmiar zestawu danych : 93.10 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Podział Przykłady
'test' 4214
'train' 33711
'validation' 4214