¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

reddit_tifu

  • Descripción:

Conjunto de datos de Reddit, donde TIFU denota el nombre de subbreddit / r / tifu. Como se define en la publicación, el estilo "corto" usa el título como resumen y "largo" usa tldr como resumen.

Las características incluyen: - documento: publicar texto sin tldr. - tldr: línea tldr. - título: título recortado sin tldr. - ups: votos a favor. - puntuación: puntuación. - num_comments: número de comentarios. - upvote_ratio: proporción de votos a favor.

FeaturesDict({
    'documents': Text(shape=(), dtype=tf.string),
    'num_comments': tf.float32,
    'score': tf.float32,
    'title': Text(shape=(), dtype=tf.string),
    'tldr': Text(shape=(), dtype=tf.string),
    'ups': tf.float32,
    'upvote_ratio': tf.float32,
})
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu / short (configuración predeterminada)

  • Descripción config: El uso del título en forma de resumen.

  • Fraccionamientos:

Separar Ejemplos de
'train' 79.740

reddit_tifu / long

  • Descripción config: Usando TLDR como resumen.

  • Fraccionamientos:

Separar Ejemplos de
'train' 42,139