media_sum

Descriptif :

Cet ensemble de données d'entretiens médiatiques à grande échelle contient 463,6 000 transcriptions avec des résumés abstraits, collectés à partir des transcriptions d'entretiens et des descriptions générales / thématiques de NPR et CNN.

Veuillez limiter votre utilisation de cet ensemble de données à des fins de recherche uniquement.

Et s'il vous plaît, citez notre article : MediaSum : un ensemble de données d'interviews médiatiques à grande échelle pour le résumé du dialogue

Éthique

Nous avons utilisé uniquement les données de transcriptions accessibles au public provenant des sources médiatiques et adhérons à leurs directives uniquement à des fins de recherche.

Comme les médias et les invités peuvent avoir des opinions biaisées, les transcriptions et les résumés en contiendront probablement. Le contenu des transcriptions et des résumés ne reflète que les points de vue des médias et des invités et doit être consulté avec discrétion.

Page d' accueil : https://github.com/zcgzcgzcg1/MediaSum
Code source : tfds.datasets.media_sum.Builder
Versions :
- 1.0.0 (par défaut) : version initiale.
Taille du téléchargement : Unknown size
Taille du jeu de données : 4.11 GiB
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données source dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
manual_dir doit contenir les fichiers :
- news_dialogue.json
- train_val_test_split.json

Les fichiers peuvent être téléchargés et extraits de la page GitHub du jeu de données : https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

Mise en cache automatique ( documentation ): Non
Fractionnements :

Diviser	Exemples
`'test'`	10 000
`'train'`	443 596
`'val'`	10 000

Structure des fonctionnalités :

FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Dtype
	FonctionnalitésDict
date	Texte		chaîne
identifiant	Texte		chaîne
programme	Texte		chaîne
conférencier	Séquence (texte)	(Aucun,)	chaîne
résumé	Texte		chaîne
URL	Texte		chaîne
tout à fait	Séquence (texte)	(Aucun,)	chaîne

Touches supervisées (Voir as_supervised doc ): ('utt', 'summary')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):

Citation :

@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}

media_sum Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Éthique

media_sum