rédaction

Descriptif :

NEWSROOM est un vaste ensemble de données pour la formation et l'évaluation des systèmes de synthèse. Il contient 1,3 million d'articles et de résumés rédigés par des auteurs et des éditeurs dans les salles de rédaction de 38 publications majeures.

Les fonctionnalités de l'ensemble de données incluent :

texte : saisir le texte des actualités.
résumé : résumé de l'actualité.

Et fonctionnalités supplémentaires :

titre : titre de l'actualité.
url : url de l'actualité.
date : date de l'article.
densité : densité extractive.
couverture : couverture extractive.
compression : taux de compression.
densité_bin : faible, moyenne, élevée.
cover_bin : extractif, abstrait.
compression_bin : faible, moyen, élevé.

Cet ensemble de données peut être téléchargé sur demande. Décompressez tout le contenu "train.jsonl, dev.jsonl, test.jsonl" dans le dossier tfds.

Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://summari.es
Code source : tfds.datasets.newsroom.Builder
Versions :
- 1.0.0 (par défaut) : aucune note de version.
Taille du téléchargement : Unknown size
Taille du jeu de données : 5.13 GiB
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
Vous devez télécharger l'ensemble de données à partir de https://summari.es/download/ La page Web nécessite une inscription. Après le téléchargement, placez les fichiers dev.jsonl, test.jsonl et train.jsonl dans le répertoire manual_dir.
Mise en cache automatique ( documentation ): Non
Fractionnements :

Diviser	Exemples
`'test'`	108 862
`'train'`	995 041
`'validation'`	108 837

Structure des fonctionnalités :

FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Dtype
	FonctionnalitésDict
compression	Tenseur	float32
compression_bin	Texte	chaîne
couverture	Tenseur	float32
couverture_bin	Texte	chaîne
date	Texte	chaîne
densité	Tenseur	float32
densité_bin	Texte	chaîne
résumé	Texte	chaîne
texte	Texte	chaîne
titre	Texte	chaîne
URL	Texte	chaîne

Touches supervisées (Voir as_supervised doc ): ('text', 'summary')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):

Citation :

@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}