haber odası

  • Açıklama :

NEWSROOM, özetleme sistemlerini eğitmek ve değerlendirmek için büyük bir veri kümesidir. 38 büyük yayının haber odalarında yazarlar ve editörler tarafından yazılmış 1,3 milyon makale ve özet içermektedir.

Veri kümesi özellikleri şunları içerir: - metin: Giriş haber metni. - özet: Haberin özeti. Ve ek özellikler: - başlık: haber başlığı. - url: haberin url'si. - tarih: makalenin tarihi. - yoğunluk: ekstraksiyon yoğunluğu. - kapsama: ekstraksiyon kapsamı. - sıkıştırma: sıkıştırma oranı. - yoğunluk_bin: düşük, orta, yüksek. - kapsama_bini: çıkarıcı, soyutlayıcı. - sıkıştırma_bin: düşük, orta, yüksek.

Bu veri seti istek üzerine indirilebilir. Tüm "train.jsonl, dev.josnl, test.jsonl" içeriğini tfds klasörüne açın.

  • Anasayfa : https://summari.es

  • Kaynak kodu : tfds.summarization.Newsroom

  • Sürümler :

    • 1.0.0 (varsayılan): Sürüm notu yok.
  • İndirme boyutu : Unknown size

  • Veri kümesi boyutu : Unknown size

  • Manuel indirme talimatları : Bu veri kümesi, kaynak verileri download_config.manual_dir içine manuel olarak download_config.manual_dir gerektirir (varsayılanı ~/tensorflow_datasets/downloads/manual/ ):
    Veri setini https://summari.es/download/ adresinden indirmelisiniz. Web sayfası kayıt gerektiriyor. İndirdikten sonra lütfen dev.jsonl, test.jsonl ve train.jsonl dosyalarını manual_dir içine koyun.

  • Otomatik önbelleğe alındı ​​( belgeler ): Bilinmiyor

  • Bölmeler :

Bölmek Örnekler
'test' 108.862
'train' 995.041
'validation' 108.837
  • Özellik yapısı :
FeaturesDict({
    'compression': tf.float32,
    'compression_bin': Text(shape=(), dtype=tf.string),
    'coverage': tf.float32,
    'coverage_bin': Text(shape=(), dtype=tf.string),
    'date': Text(shape=(), dtype=tf.string),
    'density': tf.float32,
    'density_bin': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
sıkıştırma tensör tf.float32
sıkıştırma_bin Metin tf.string
kapsama tensör tf.float32
kapsama_bin Metin tf.string
tarih Metin tf.string
yoğunluk tensör tf.float32
yoğunluk_bin Metin tf.string
Özet Metin tf.string
Metin Metin tf.string
Başlık Metin tf.string
url Metin tf.string
  • alıntı :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}