Ayuda a proteger la Gran Barrera de Coral con TensorFlow en Kaggle Únete Challenge

reddit_disentanglement

  • Descripción:

Este conjunto de datos contiene ~ 3 millones de mensajes de reddit. Cada mensaje está etiquetado con metadatos. La tarea es predecir la identificación de su mensaje principal en el hilo correspondiente. Cada registro contiene una lista de mensajes de un hilo. Los registros duplicados y rotos se eliminan del conjunto de datos.

Las características son: - id - id del mensaje - texto - texto del mensaje - autor - autor del mensaje - created_utc - marca de tiempo UTC del mensaje - link_id - id de la publicación con la que se relaciona el comentario Target: - parent_id - id del mensaje principal en el hilo actual

Separar Ejemplos de
  • características:
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=tf.string),
        'created_utc': Text(shape=(), dtype=tf.string),
        'id': Text(shape=(), dtype=tf.string),
        'link_id': Text(shape=(), dtype=tf.string),
        'parent_id': Text(shape=(), dtype=tf.string),
        'text': Text(shape=(), dtype=tf.string),
    }),
})
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}