media_sum

  • Descriptif :

Cet ensemble de données d'entretiens médiatiques à grande échelle contient 463,6 000 transcriptions avec des résumés abstraits, collectés à partir des transcriptions d'entretiens et des descriptions générales / thématiques de NPR et CNN.

Veuillez limiter votre utilisation de cet ensemble de données à des fins de recherche uniquement.

Et s'il vous plaît, citez notre article : MediaSum : un ensemble de données d'interviews médiatiques à grande échelle pour le résumé du dialogue

Éthique

Nous avons utilisé uniquement les données de transcriptions accessibles au public provenant des sources médiatiques et adhérons à leurs directives uniquement à des fins de recherche.

Comme les médias et les invités peuvent avoir des opinions biaisées, les transcriptions et les résumés en contiendront probablement. Le contenu des transcriptions et des résumés ne reflète que les points de vue des médias et des invités et doit être consulté avec discrétion.

  • Page d' accueil : https://github.com/zcgzcgzcg1/MediaSum

  • Code source : tfds.datasets.media_sum.Builder

  • Versions :

    • 1.0.0 (par défaut) : version initiale.
  • Taille du téléchargement : Unknown size

  • Taille du jeu de données : 4.11 GiB

  • Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données source dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
    manual_dir doit contenir les fichiers :

    • news_dialogue.json
    • train_val_test_split.json

Les fichiers peuvent être téléchargés et extraits de la page GitHub du jeu de données : https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 10 000
'train' 443 596
'val' 10 000
  • Structure des fonctionnalités :
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
FonctionnalitésDict
date Texte chaîne
identifiant Texte chaîne
programme Texte chaîne
conférencier Séquence (texte) (Aucun,) chaîne
résumé Texte chaîne
URL Texte chaîne
tout à fait Séquence (texte) (Aucun,) chaîne
  • Citation :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}