O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

reddit_disentanglement

  • Descrição:

Este conjunto de dados contém ~ 3 milhões de mensagens do reddit. Cada mensagem é marcada com metadados. A tarefa é prever o id de sua mensagem pai no encadeamento correspondente. Cada registro contém uma lista de mensagens de um tópico. Registros duplicados e quebrados são removidos do conjunto de dados.

Os recursos são: - id - id da mensagem - texto - texto da mensagem - autor - autor da mensagem - created_utc - timestamp UTC da mensagem - link_id - id da postagem que o comentário está relacionado ao Destino: - parent_id - id da mensagem pai no tópico atual

Dividir Exemplos
  • Características:
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=tf.string),
        'created_utc': Text(shape=(), dtype=tf.string),
        'id': Text(shape=(), dtype=tf.string),
        'link_id': Text(shape=(), dtype=tf.string),
        'parent_id': Text(shape=(), dtype=tf.string),
        'text': Text(shape=(), dtype=tf.string),
    }),
})
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}