Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

reddit_tifu

  • opis:

Zestaw danych Reddit, gdzie TIFU oznacza nazwę subbreddit /r/tifu. Zgodnie z definicją zawartą w publikacji, styel „short” używa tytułu jako podsumowania, a „long” używa tldr jako podsumowania.

Funkcje obejmują: - dokument: tekst posta bez tldr. - tldr: linia tldr. - tytuł: skrócony tytuł bez tldr. - ups: upgłosy. - wynik: wynik. - num_comments: liczba komentarzy. - upvote_ratio: współczynnik głosów.

FeaturesDict({
    'documents': Text(shape=(), dtype=tf.string),
    'num_comments': tf.float32,
    'score': tf.float32,
    'title': Text(shape=(), dtype=tf.string),
    'tldr': Text(shape=(), dtype=tf.string),
    'ups': tf.float32,
    'upvote_ratio': tf.float32,
})
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/krótki (konfiguracja domyślna)

  • Opis config: Korzystanie tytuł jako podsumowanie.

  • dzieli:

Podział Przykłady
'train' 79 740

reddit_tifu/długi

  • Opis config: Korzystanie TLDR jako podsumowanie.

  • dzieli:

Podział Przykłady
'train' 42,139