reddit

TFDS supporte désormais le format Croissant 🥐 ! Lisez la documentation pour en savoir plus.

Cette page a été traduite par l'API Cloud Translation.

Descriptif :

Ce corpus contient des messages prétraités de l'ensemble de données Reddit. L'ensemble de données se compose de 3 848 330 articles d'une longueur moyenne de 270 mots pour le contenu et de 28 mots pour le résumé.

Les fonctionnalités incluent des chaînes : author, body, normalizedBody, content, summary, subreddit, subreddit_id. Le contenu est utilisé comme document et le résumé est utilisé comme résumé.

Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/webis-de/webis-tldr-17-corpus
Code source : tfds.datasets.reddit.Builder
Versions :
- 1.0.0 (par défaut) : aucune note de version.
Taille du téléchargement : 2.93 GiB
Taille du jeu de données : 18.09 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :

Diviser	Exemples
`'train'`	3 848 330

Structure des fonctionnalités :

FeaturesDict({
    'author': string,
    'body': string,
    'content': string,
    'id': string,
    'normalizedBody': string,
    'subreddit': string,
    'subreddit_id': string,
    'summary': string,
})

Documentation des fonctionnalités :

Caractéristique	Classe	Dtype
	FonctionnalitésDict
auteur	Tenseur	chaîne de caractères
corps	Tenseur	chaîne de caractères
teneur	Tenseur	chaîne de caractères
identifiant	Tenseur	chaîne de caractères
Corpsnormalisé	Tenseur	chaîne de caractères
sous-reddit	Tenseur	chaîne de caractères
subreddit_id	Tenseur	chaîne de caractères
résumé	Tenseur	chaîne de caractères

Clés supervisées (Voir as_supervised doc ): ('content', 'summary')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):

Citation :

@inproceedings{volske-etal-2017-tl,
    title = "{TL};{DR}: Mining {R}eddit to Learn Automatic Summarization",
    author = {V{\"o}lske, Michael  and
      Potthast, Martin  and
      Syed, Shahbaz  and
      Stein, Benno},
    booktitle = "Proceedings of the Workshop on New Frontiers in Summarization",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/W17-4508",
    doi = "10.18653/v1/W17-4508",
    pages = "59--63",
    abstract = "Recent advances in automatic text summarization have used deep neural networks to generate high-quality abstractive summaries, but the performance of these models strongly depends on large amounts of suitable training data. We propose a new method for mining social media for author-provided summaries, taking advantage of the common practice of appending a {``}TL;DR{''} to long posts. A case study using a large Reddit crawl yields the Webis-TLDR-17 dataset, complementing existing corpora primarily from the news genre. Our technique is likely applicable to other social media sites and general web crawls.",
}

reddit Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.