- Açıklama :
SummScreen Özetleme veri seti, anonimleştirilmemiş, tokenleştirilmemiş versiyon.
Eğitim/val/test bölmeleri ve filtreleme, son belirtilmiş veri kümesini temel alır, ancak sağlanan dökümler ve özetler, belirteçleştirilmemiş metni temel alır.
İki özellik vardır:
- transkript: Her diyalog satırı yeni satırlarla ayrılmış tam bölüm transkriptleri
özet: Bölümlerin özetleri veya özetleri
Ana sayfa : https://github.com/mingdachen/SummScreen
Kaynak kodu :
tfds.summarization.summscreen.Summscreen
Sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
İndirme boyutu :
841.27 MiB
Denetlenen anahtarlar (bkz
as_supervised
doc ):('transcript', 'recap')
Şekil ( tfds.show_examples ): Desteklenmez.
alıntı :
@article{DBLP:journals/corr/abs-2104-07091,
author = {Mingda Chen and
Zewei Chu and
Sam Wiseman and
Kevin Gimpel},
title = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
journal = {CoRR},
volume = {abs/2104.07091},
year = {2021},
url = {https://arxiv.org/abs/2104.07091},
archivePrefix = {arXiv},
eprint = {2104.07091},
timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
sumscreen/fd (varsayılan yapılandırma)
Yapılandırma açıklaması : ForeverDreaming
Veri kümesi boyutu :
132.99 MiB
Otomatik önbelleğe alınmış ( belgeler ): Evet
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 337 |
'train' | 3.673 |
'validation' | 338 |
- Özellik yapısı :
FeaturesDict({
'episode_number': Text(shape=(), dtype=tf.string),
'episode_title': Text(shape=(), dtype=tf.string),
'recap': Text(shape=(), dtype=tf.string),
'show_title': Text(shape=(), dtype=tf.string),
'transcript': Text(shape=(), dtype=tf.string),
'transcript_author': Text(shape=(), dtype=tf.string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_numarası | Metin | tf.string | ||
bölüm_başlığı | Metin | tf.string | ||
özet | Metin | tf.string | ||
başlığı göster | Metin | tf.string | ||
Transcript | Metin | tf.string | ||
transkript_author | Metin | tf.string |
- Örnekler ( tfds.as_dataframe ):
özet ekranı/tms
Yapılandırma açıklaması : TVMegaSite
Veri kümesi boyutu :
592.53 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 1.793 |
'train' | 18.915 |
'validation' | 1.795 |
- Özellik yapısı :
FeaturesDict({
'episode_summary': Text(shape=(), dtype=tf.string),
'recap': Text(shape=(), dtype=tf.string),
'recap_author': Text(shape=(), dtype=tf.string),
'show_title': Text(shape=(), dtype=tf.string),
'transcript': Text(shape=(), dtype=tf.string),
'transcript_author': Tensor(shape=(None,), dtype=tf.string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_özeti | Metin | tf.string | ||
özet | Metin | tf.string | ||
recap_author | Metin | tf.string | ||
başlığı göster | Metin | tf.string | ||
Transcript | Metin | tf.string | ||
transkript_author | tensör | (Hiçbiri,) | tf.string |
- Örnekler ( tfds.as_dataframe ):