reddit

  • Descriptif :

Ce corpus contient des messages prétraités de l'ensemble de données Reddit. L'ensemble de données se compose de 3 848 330 articles d'une longueur moyenne de 270 mots pour le contenu et de 28 mots pour le résumé.

Les fonctionnalités incluent des chaînes : author, body, normalizedBody, content, summary, subreddit, subreddit_id. Le contenu est utilisé comme document et le résumé est utilisé comme résumé.

Diviser Exemples
'train' 3 848 330
  • Structure des fonctionnalités :
FeaturesDict({
    'author': string,
    'body': string,
    'content': string,
    'id': string,
    'normalizedBody': string,
    'subreddit': string,
    'subreddit_id': string,
    'summary': string,
})
  • Documentation des fonctionnalités :
Caractéristique Classe Façonner Dtype Description
FonctionnalitésDict
auteur Tenseur chaîne de caractères
corps Tenseur chaîne de caractères
teneur Tenseur chaîne de caractères
identifiant Tenseur chaîne de caractères
Corpsnormalisé Tenseur chaîne de caractères
sous-reddit Tenseur chaîne de caractères
subreddit_id Tenseur chaîne de caractères
résumé Tenseur chaîne de caractères
  • Citation :
@inproceedings{volske-etal-2017-tl,
    title = "{TL};{DR}: Mining {R}eddit to Learn Automatic Summarization",
    author = {V{\"o}lske, Michael  and
      Potthast, Martin  and
      Syed, Shahbaz  and
      Stein, Benno},
    booktitle = "Proceedings of the Workshop on New Frontiers in Summarization",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/W17-4508",
    doi = "10.18653/v1/W17-4508",
    pages = "59--63",
    abstract = "Recent advances in automatic text summarization have used deep neural networks to generate high-quality abstractive summaries, but the performance of these models strongly depends on large amounts of suitable training data. We propose a new method for mining social media for author-provided summaries, taking advantage of the common practice of appending a {``}TL;DR{''} to long posts. A case study using a large Reddit crawl yields the Webis-TLDR-17 dataset, complementing existing corpora primarily from the news genre. Our technique is likely applicable to other social media sites and general web crawls.",
}