O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

reddit_tifu

  • Descrição:

Conjunto de dados Reddit, onde TIFU denota o nome do subbreddit / r / tifu. Conforme definido na publicação, styel "short" usa o título como resumo e "long" usa tldr como resumo.

Os recursos incluem: - documento: postar texto sem tldr. - tldr: linha tldr. - título: título cortado sem tldr. - ups: votos positivos. - pontuação: pontuação. - num_comments: número de comentários. - upvote_ratio: proporção de votos positivos.

FeaturesDict({
    'documents': Text(shape=(), dtype=tf.string),
    'num_comments': tf.float32,
    'score': tf.float32,
    'title': Text(shape=(), dtype=tf.string),
    'tldr': Text(shape=(), dtype=tf.string),
    'ups': tf.float32,
    'upvote_ratio': tf.float32,
})
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu / short (configuração padrão)

  • A inscrição config: Usar título como resumo.

  • desdobramentos:

Dividir Exemplos
'train' 79.740

reddit_tifu / long

  • A inscrição Config: Usando TLDR como resumo.

  • desdobramentos:

Dividir Exemplos
'train' 42.139