media_sum

 • opis :

Ten wielkoskalowy zbiór danych wywiadów medialnych zawiera 463,6 tys. transkryptów z abstrakcyjnymi podsumowaniami, zebranymi z transkrypcji wywiadów oraz przeglądów/opisów tematów z NPR i CNN.

Ogranicz wykorzystanie tego zestawu danych wyłącznie do celów badawczych.

I proszę zacytować nasz artykuł: MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization

Etyka

Użyliśmy tylko publicznie dostępnych transkrypcji danych ze źródeł medialnych i przestrzegamy ich wytycznych wyłącznie do celów badawczych.

Ponieważ media i goście mogą mieć stronnicze poglądy, transkrypcje i streszczenia prawdopodobnie będą je zawierać. Treść stenogramów i streszczeń odzwierciedla wyłącznie poglądy mediów i gości i powinna być traktowana z rozwagą.

 • Strona główna : https://github.com/zcgzcgzcg1/MediaSum

 • Kod źródłowy : tfds.datasets.media_sum.Builder

 • Wersje :

  • 1.0.0 (domyślnie): Wersja początkowa.
 • Rozmiar pliku do pobrania : Unknown size

 • Rozmiar zestawu danych : 4.11 GiB

 • Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ ):
  katalog_ręczny powinien zawierać pliki:

  • news_dialog.json
  • train_val_test_split.json

Pliki można pobrać i wyodrębnić ze strony GitHub zestawu danych: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

Podział Przykłady
'test' 10 000
'train' 443 596
'val' 10 000
 • Struktura funkcji :
FeaturesDict({
  'date': Text(shape=(), dtype=string),
  'id': Text(shape=(), dtype=string),
  'program': Text(shape=(), dtype=string),
  'speaker': Sequence(Text(shape=(), dtype=string)),
  'summary': Text(shape=(), dtype=string),
  'url': Text(shape=(), dtype=string),
  'utt': Sequence(Text(shape=(), dtype=string)),
})
 • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
data Tekst strunowy
ID Tekst strunowy
program Tekst strunowy
głośnik Sekwencja (tekst) (Nic,) strunowy
streszczenie Tekst strunowy
adres URL Tekst strunowy
utt Sekwencja (tekst) (Nic,) strunowy
 • Cytat :
@article{zhu2021mediasum,
 title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
 author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
 journal={arXiv preprint arXiv:2103.06410},
 year={2021}
}