reddit_tifu

  • Descripción :

Conjunto de datos de Reddit, donde TIFU denota el nombre de subbreddit /r/tifu. Como se define en la publicación, styel "corto" usa el título como resumen y "largo" usa tldr como resumen.

Las características incluyen: - documento: publicar texto sin tldr. - tldr: línea tldr. - título: título recortado sin tldr. - ups: votos a favor. - puntuación: puntuación. - num_comments: número de comentarios. - upvote_ratio: proporción de votos a favor.

FeaturesDict({
    'documents': Text(shape=(), dtype=tf.string),
    'num_comments': tf.float32,
    'score': tf.float32,
    'title': Text(shape=(), dtype=tf.string),
    'tldr': Text(shape=(), dtype=tf.string),
    'ups': tf.float32,
    'upvote_ratio': tf.float32,
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
documentos Texto tf.cadena
num_comentarios Tensor tf.float32
puntaje Tensor tf.float32
título Texto tf.cadena
tldr Texto tf.cadena
UPS Tensor tf.float32
proporción de votos a favor Tensor tf.float32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (configuración predeterminada)

  • Descripción de la configuración : uso del título como resumen.

  • Divisiones :

Separar Ejemplos
'train' 79,740
  • Claves supervisadas (Ver as_supervised ): ('documents', 'title')

reddit_tifu/largo

  • Descripción de la configuración : uso de TLDR como resumen.

  • Divisiones :

Separar Ejemplos
'train' 42,139