media_sum

  • opis :

Ten wielkoskalowy zbiór danych wywiadów medialnych zawiera 463,6 tys. transkryptów z abstrakcyjnymi podsumowaniami, zebranymi z transkrypcji wywiadów oraz przeglądów/opisów tematów z NPR i CNN.

Ogranicz wykorzystanie tego zestawu danych wyłącznie do celów badawczych.

I proszę zacytować nasz artykuł: MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization

Etyka

Użyliśmy tylko publicznie dostępnych transkrypcji danych ze źródeł medialnych i przestrzegamy ich wytycznych wyłącznie do celów badawczych.

Ponieważ media i goście mogą mieć stronnicze poglądy, transkrypcje i streszczenia prawdopodobnie będą je zawierać. Treść stenogramów i streszczeń odzwierciedla wyłącznie poglądy mediów i gości i powinna być traktowana z rozwagą.

  • Strona główna : https://github.com/zcgzcgzcg1/MediaSum

  • Kod źródłowy : tfds.datasets.media_sum.Builder

  • Wersje :

    • 1.0.0 (domyślnie): Wersja początkowa.
  • Rozmiar pliku do pobrania : Unknown size

  • Rozmiar zestawu danych : 4.11 GiB

  • Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ ):
    katalog_ręczny powinien zawierać pliki:

    • news_dialog.json
    • train_val_test_split.json

Pliki można pobrać i wyodrębnić ze strony GitHub zestawu danych: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

Podział Przykłady
'test' 10 000
'train' 443 596
'val' 10 000
  • Struktura funkcji :
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
data Tekst strunowy
ID Tekst strunowy
program Tekst strunowy
głośnik Sekwencja (tekst) (Nic,) strunowy
streszczenie Tekst strunowy
adres URL Tekst strunowy
utt Sekwencja (tekst) (Nic,) strunowy
  • Cytat :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}