- Açıklama :
NEWSROOM, özetleme sistemlerini eğitmek ve değerlendirmek için büyük bir veri kümesidir. 38 büyük yayının haber odalarında yazarlar ve editörler tarafından yazılmış 1,3 milyon makale ve özet içermektedir.
Veri kümesi özellikleri şunları içerir: - metin: Giriş haber metni. - özet: Haberin özeti. Ve ek özellikler: - başlık: haber başlığı. - url: haberin url'si. - tarih: makalenin tarihi. - yoğunluk: ekstraksiyon yoğunluğu. - kapsama: ekstraksiyon kapsamı. - sıkıştırma: sıkıştırma oranı. - yoğunluk_bin: düşük, orta, yüksek. - kapsama_bini: çıkarıcı, soyutlayıcı. - sıkıştırma_bin: düşük, orta, yüksek.
Bu veri seti istek üzerine indirilebilir. Tüm "train.jsonl, dev.josnl, test.jsonl" içeriğini tfds klasörüne açın.
Anasayfa : https://summari.es
Kaynak kodu :
tfds.summarization.Newsroom
Sürümler :
-
1.0.0
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
Unknown size
Veri kümesi boyutu :
Unknown size
Manuel indirme talimatları : Bu veri kümesi, kaynak verileri download_config.manual_dir içine manuel olarak
download_config.manual_dir
gerektirir (varsayılanı~/tensorflow_datasets/downloads/manual/
):
Veri setini https://summari.es/download/ adresinden indirmelisiniz. Web sayfası kayıt gerektiriyor. İndirdikten sonra lütfen dev.jsonl, test.jsonl ve train.jsonl dosyalarını manual_dir içine koyun.Otomatik önbelleğe alındı ( belgeler ): Bilinmiyor
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 108.862 |
'train' | 995.041 |
'validation' | 108.837 |
- Özellik yapısı :
FeaturesDict({
'compression': tf.float32,
'compression_bin': Text(shape=(), dtype=tf.string),
'coverage': tf.float32,
'coverage_bin': Text(shape=(), dtype=tf.string),
'date': Text(shape=(), dtype=tf.string),
'density': tf.float32,
'density_bin': Text(shape=(), dtype=tf.string),
'summary': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'url': Text(shape=(), dtype=tf.string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
sıkıştırma | tensör | tf.float32 | ||
sıkıştırma_bin | Metin | tf.string | ||
kapsama | tensör | tf.float32 | ||
kapsama_bin | Metin | tf.string | ||
tarih | Metin | tf.string | ||
yoğunluk | tensör | tf.float32 | ||
yoğunluk_bin | Metin | tf.string | ||
Özet | Metin | tf.string | ||
Metin | Metin | tf.string | ||
Başlık | Metin | tf.string | ||
url | Metin | tf.string |
Denetlenen anahtarlar (bkz
as_supervised
doc ):('text', 'summary')
Şekil ( tfds.show_examples ): Desteklenmez.
Örnekler ( tfds.as_dataframe ):
- alıntı :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}