Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

reddit_disentanglement

  • opis:

Ten zbiór danych zawiera ~3M wiadomości z reddita. Każda wiadomość jest oznaczona metadanymi. Zadanie polega na przewidzeniu identyfikatora wiadomości nadrzędnej w odpowiednim wątku. Każdy rekord zawiera listę wiadomości z jednego wątku. Zduplikowane i uszkodzone rekordy są usuwane ze zbioru danych.

Funkcje to: - id - identyfikator wiadomości - tekst - tekst wiadomości - autor - autor wiadomości - created_utc - znacznik czasu UTC wiadomości - link_id - identyfikator postu, do którego odnosi się komentarz Target: - parent_id - identyfikator wiadomości nadrzędnej w bieżącym wątku

Rozdzielać Przykłady
  • Cechy:
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=tf.string),
        'created_utc': Text(shape=(), dtype=tf.string),
        'id': Text(shape=(), dtype=tf.string),
        'link_id': Text(shape=(), dtype=tf.string),
        'parent_id': Text(shape=(), dtype=tf.string),
        'text': Text(shape=(), dtype=tf.string),
    }),
})
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}