- Açıklama :
Bu büyük ölçekli medya görüşmesi veri seti, görüşme dökümlerinden ve NPR ve CNN'den genel bakış / konu açıklamalarından toplanan soyut özetleri olan 463.6K dökümü içerir.
Lütfen bu veri kümesini kullanımınızı yalnızca araştırma amacıyla sınırlayın.
Ve lütfen makalemizden alıntı yapın: MediaSum: Diyalog Özetleme için Büyük Ölçekli Medya Röportaj Veri Kümesi
etik
Medya kaynaklarından yalnızca kamuya açık transkript verilerini kullandık ve yalnızca araştırma amaçlı kılavuzlarına bağlı kaldık.
Medya ve konuklar önyargılı görüşlere sahip olabileceğinden, dökümler ve özetler muhtemelen bunları içerecektir. Transkriptlerin ve özetlerin içeriği yalnızca medyanın ve konukların görüşlerini yansıtır ve dikkatle incelenmelidir.
Ana sayfa : https://github.com/zcgzcgzcg1/MediaSum
Kaynak kodu :
tfds.summarization.media_sum.MediaSum
Sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
İndirme boyutu :
Unknown size
Veri kümesi boyutu :
4.11 GiB
Manuel indirme talimatları : Bu veri kümesi, kaynak verileri download_config.manual_dir içine manuel olarak
download_config.manual_dir
gerektirir (varsayılanı~/tensorflow_datasets/downloads/manual/
):
manual_dir dosyaları içermelidir:- news_dialogue.json
- train_val_test_split.json
Dosyalar, veri kümesinin GitHub sayfasından indirilebilir ve çıkarılabilir: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 10.000 |
'train' | 443,596 |
'val' | 10.000 |
- Özellik yapısı :
FeaturesDict({
'date': Text(shape=(), dtype=tf.string),
'id': Text(shape=(), dtype=tf.string),
'program': Text(shape=(), dtype=tf.string),
'speaker': Sequence(Text(shape=(), dtype=tf.string)),
'summary': Text(shape=(), dtype=tf.string),
'url': Text(shape=(), dtype=tf.string),
'utt': Sequence(Text(shape=(), dtype=tf.string)),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
tarih | Metin | tf.string | ||
İD | Metin | tf.string | ||
program | Metin | tf.string | ||
konuşmacı | Sıra(Metin) | (Hiçbiri,) | tf.string | |
özet | Metin | tf.string | ||
url | Metin | tf.string | ||
utt | Sıra(Metin) | (Hiçbiri,) | tf.string |
Denetlenen anahtarlar (bkz
as_supervised
doc ):('utt', 'summary')
Şekil ( tfds.show_examples ): Desteklenmez.
Örnekler ( tfds.as_dataframe ):
- alıntı :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}