medya_sum

  • Açıklama :

Bu büyük ölçekli medya görüşmesi veri seti, görüşme dökümlerinden ve NPR ve CNN'den genel bakış / konu açıklamalarından toplanan soyut özetleri olan 463.6K dökümü içerir.

Lütfen bu veri kümesini kullanımınızı yalnızca araştırma amacıyla sınırlayın.

Ve lütfen makalemizden alıntı yapın: MediaSum: Diyalog Özetleme için Büyük Ölçekli Medya Röportaj Veri Kümesi

etik

Medya kaynaklarından yalnızca kamuya açık transkript verilerini kullandık ve yalnızca araştırma amaçlı kılavuzlarına bağlı kaldık.

Medya ve konuklar önyargılı görüşlere sahip olabileceğinden, dökümler ve özetler muhtemelen bunları içerecektir. Transkriptlerin ve özetlerin içeriği yalnızca medyanın ve konukların görüşlerini yansıtır ve dikkatle incelenmelidir.

  • Ana sayfa : https://github.com/zcgzcgzcg1/MediaSum

  • Kaynak kodu : tfds.summarization.media_sum.MediaSum

  • Sürümler :

    • 1.0.0 (varsayılan): İlk sürüm.
  • İndirme boyutu : Unknown size

  • Veri kümesi boyutu : 4.11 GiB

  • Manuel indirme talimatları : Bu veri kümesi, kaynak verileri download_config.manual_dir içine manuel olarak download_config.manual_dir gerektirir (varsayılanı ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir dosyaları içermelidir:

    • news_dialogue.json
    • train_val_test_split.json

Dosyalar, veri kümesinin GitHub sayfasından indirilebilir ve çıkarılabilir: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölmeler :

Bölmek Örnekler
'test' 10.000
'train' 443,596
'val' 10.000
  • Özellik yapısı :
FeaturesDict({
    'date': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'program': Text(shape=(), dtype=tf.string),
    'speaker': Sequence(Text(shape=(), dtype=tf.string)),
    'summary': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
    'utt': Sequence(Text(shape=(), dtype=tf.string)),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
tarih Metin tf.string
İD Metin tf.string
program Metin tf.string
konuşmacı Sıra(Metin) (Hiçbiri,) tf.string
özet Metin tf.string
url Metin tf.string
utt Sıra(Metin) (Hiçbiri,) tf.string
  • alıntı :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}