reddit_tifu

  • Description:

Ensemble de données Reddit, où TIFU désigne le nom de subbreddit /r/tifu. Comme défini dans la publication, styel "short" utilise le titre comme résumé et "long" utilise tldr comme résumé.

Les fonctionnalités incluent : - document : postez du texte sans tldr. - tldr : ligne tldr. - titre : titre rogné sans tldr. - ups : votes positifs. - note : note. - num_comments : nombre de commentaires. - upvote_ratio : taux de vote positif.

FeaturesDict({
    'documents': Text(shape=(), dtype=tf.string),
    'num_comments': tf.float32,
    'score': tf.float32,
    'title': Text(shape=(), dtype=tf.string),
    'tldr': Text(shape=(), dtype=tf.string),
    'ups': tf.float32,
    'upvote_ratio': tf.float32,
})
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (configuration par défaut)

  • Description Config: Utiliser le titre comme résumé.

  • scissions:

Diviser Exemples
'train' 79 740

reddit_tifu/long

  • Description Config: Utilisation TLDR comme résumé.

  • scissions:

Diviser Exemples
'train' 42 139