reddit_tifu

  • Descriptif :

Ensemble de données Reddit, où TIFU désigne le nom du sous-breddit /r/tifu. Comme défini dans la publication, le style "short" utilise le titre comme résumé et "long" utilise tldr comme résumé.

Les fonctionnalités incluent :

  • document : publier du texte sans tldr.
  • tldr : ligne tldr.
  • titre : titre rogné sans tldr.
  • ups : votes positifs.
  • score : score.
  • num_comments : nombre de commentaires.
  • upvote_ratio : taux de vote positif.

  • Documentation complémentaire : Explorer sur Papers With Code

  • Page d' accueil : https://github.com/ctr4si/MMN

  • Code source : tfds.datasets.reddit_tifu.Builder

  • Versions :

    • 1.1.0 : Supprimez le document vide et les chaînes de résumé.
    • 1.1.1 : Ajout des fractionnements d'entraînement, de développement et de test (80/10/10) qui sont utilisés dans PEGASUS ( https://arxiv.org/abs/1912.08777 ) dans une configuration séparée. Ceux-ci ont été créés de manière aléatoire à l'aide de la fonction de division tfds et sont publiés pour garantir que les résultats sur Reddit Tifu Long sont reproductibles et comparables. Ajoutez également un id aux points de données.
    • 1.1.2 (par défaut) : splits corrigés téléchargés.
  • Structure des fonctionnalités :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})
  • Documentation des fonctionnalités :
Caractéristique Classe Façonner Dtype Description
FonctionnalitésDict
documents Texte chaîne de caractères
identifiant Texte chaîne de caractères
nombre_commentaires Tenseur float32
score Tenseur float32
Titre Texte chaîne de caractères
tldr Texte chaîne de caractères
UPS Tenseur float32
upvote_ratio Tenseur float32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (configuration par défaut)

  • Description de la configuration : Utilisation du titre comme résumé.

  • Taille du téléchargement : 639.54 MiB

  • Taille du jeu de données : 141.46 MiB

  • Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'train' 79 740

reddit_tifu/long

  • Description de la configuration : Utilisation de TLDR comme résumé.

  • Taille du téléchargement : 639.54 MiB

  • Taille du jeu de données : 93.10 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 42 139

reddit_tifu/long_split

  • Description de la configuration : Utilisation de TLDR comme résumé et renvoi des fractionnements train/test/dev.

  • Taille du téléchargement : 639.94 MiB

  • Taille du jeu de données : 93.10 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 4 214
'train' 33 711
'validation' 4 214