rédaction

  • Description:

NEWSROOM est un grand ensemble de données pour la formation et l'évaluation des systèmes de résumé. Il contient 1,3 million d'articles et de résumés rédigés par des auteurs et des éditeurs dans les salles de rédaction de 38 publications majeures.

Les fonctionnalités de l'ensemble de données incluent : - text : le texte des nouvelles d'entrée. - résumé : Résumé de l'actualité. Et des fonctionnalités supplémentaires : - titre : titre de l'actualité. - url : url de l'actualité. - date : date de l'article. - densité : densité extractive. - couverture : couverture extractive. - compression : taux de compression. -density_bin : faible, moyen, élevé. -cover_bin : extractif, abstrait. - compression_bin : faible, moyen, élevé.

Cet ensemble de données peut être téléchargé sur demande. Décompressez tout le contenu "train.jsonl, dev.josnl, test.jsonl" dans le dossier tfds.

  • Page d' accueil: https://summari.es

  • Code Source: tfds.summarization.Newsroom

  • versions:

    • 1.0.0 (par défaut): Aucune note de version.
  • Taille du téléchargement: Unknown size

  • Taille Dataset: Unknown size

  • Instructions de téléchargement Manuel: Cet ensemble de données , vous devez télécharger les données source manuellement dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ):
    Vous devez télécharger le jeu de données https://summari.es/download/ La page Web nécessite une inscription. Après le téléchargement, veuillez mettre les fichiers dev.jsonl, test.jsonl et train.jsonl dans le manual_dir.

  • Mis en cache automatique ( documentation ): Inconnu

  • scissions:

Diviser Exemples
'test' 108 862
'train' 995 041
'validation' 108 837
  • Caractéristiques:
FeaturesDict({
    'compression': tf.float32,
    'compression_bin': Text(shape=(), dtype=tf.string),
    'coverage': tf.float32,
    'coverage_bin': Text(shape=(), dtype=tf.string),
    'date': Text(shape=(), dtype=tf.string),
    'density': tf.float32,
    'density_bin': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
  • citation:
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}