Ce corpus contient des messages prétraités de l'ensemble de données Reddit. L'ensemble de données se compose de 3 848 330 articles d'une longueur moyenne de 270 mots pour le contenu et de 28 mots pour le résumé.

Les fonctionnalités incluent des chaînes : author, body, normalizedBody, content, summary, subreddit, subreddit_id. Le contenu est utilisé comme document et le résumé est utilisé comme résumé.

Diviser Exemples
'train' 3 848 330
  • Structure des fonctionnalités :
    'author': string,
    'body': string,
    'content': string,
    'id': string,
    'normalizedBody': string,
    'subreddit': string,
    'subreddit_id': string,
    'summary': string,
  • Documentation des fonctionnalités :
Caractéristique Classe Façonner Dtype Description
auteur Tenseur chaîne de caractères
corps Tenseur chaîne de caractères
teneur Tenseur chaîne de caractères
identifiant Tenseur chaîne de caractères
Corpsnormalisé Tenseur chaîne de caractères
sous-reddit Tenseur chaîne de caractères
subreddit_id Tenseur chaîne de caractères
résumé Tenseur chaîne de caractères
