- Descripción :
Conjunto de datos de Reddit, donde TIFU denota el nombre de subbreddit /r/tifu. Como se define en la publicación, styel "corto" usa el título como resumen y "largo" usa tldr como resumen.
Las características incluyen: - documento: publicar texto sin tldr. - tldr: línea tldr. - título: título recortado sin tldr. - ups: votos a favor. - puntuación: puntuación. - num_comments: número de comentarios. - upvote_ratio: proporción de votos a favor.
Página de inicio: https://github.com/ctr4si/MMN
Código fuente :
tfds.summarization.RedditTifu
Versiones :
-
1.1.0
(predeterminado): Sin notas de la versión.
-
Tamaño de la descarga :
639.54 MiB
Tamaño del conjunto de datos :
Unknown size
Auto-caché ( documentación ): Desconocido
Estructura de características :
FeaturesDict({
'documents': Text(shape=(), dtype=tf.string),
'num_comments': tf.float32,
'score': tf.float32,
'title': Text(shape=(), dtype=tf.string),
'tldr': Text(shape=(), dtype=tf.string),
'ups': tf.float32,
'upvote_ratio': tf.float32,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
documentos | Texto | tf.cadena | ||
num_comentarios | Tensor | tf.float32 | ||
puntaje | Tensor | tf.float32 | ||
título | Texto | tf.cadena | ||
tldr | Texto | tf.cadena | ||
UPS | Tensor | tf.float32 | ||
proporción de votos a favor | Tensor | tf.float32 |
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ): Falta.
Cita :
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu/short (configuración predeterminada)
Descripción de la configuración : uso del título como resumen.
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 79,740 |
- Claves supervisadas (Ver
as_supervised
):('documents', 'title')
reddit_tifu/largo
Descripción de la configuración : uso de TLDR como resumen.
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 42,139 |
- Claves supervisadas (ver
as_supervised
doc ):('documents', 'tldr')