reddit_dissociation

  • Description:

Cet ensemble de données contient environ 3 millions de messages de reddit. Chaque message est étiqueté avec des métadonnées. La tâche consiste à prédire l'identifiant de son message parent dans le fil correspondant. Chaque enregistrement contient une liste de messages d'un fil. Les enregistrements dupliqués et rompus sont supprimés de l'ensemble de données.

Les fonctionnalités sont : - id - id du message - text - texte du message - auteur - auteur du message - created_utc - horodatage UTC du message - link_id - id du message auquel le commentaire se rapporte Cible : - parent_id - id du message parent dans le fil actuel

  • Page d' accueil: https://github.com/henghuiz/MaskedHierarchicalTransformer

  • Code source: tfds.text.RedditDisentanglement

  • versions:

    • 2.0.0 (par défaut): Aucune note de version.
  • Taille du téléchargement: Unknown size

  • Taille Dataset: Unknown size

  • Instructions de téléchargement Manuel: Cet ensemble de données , vous devez télécharger les données source manuellement dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ):
    Télécharger https://github.com/henghuiz/MaskedHierarchicalTransformer, décompressez raw_data.zip et exécuter generate_dataset.py avec vos informations d'identification reddit api. Ensuite, placez train.csv, val.csv et test.csv du répertoire de sortie dans le dossier manual.

  • Mis en cache automatique ( documentation ): Inconnu

  • scissions:

Diviser Exemples
  • Caractéristiques:
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=tf.string),
        'created_utc': Text(shape=(), dtype=tf.string),
        'id': Text(shape=(), dtype=tf.string),
        'link_id': Text(shape=(), dtype=tf.string),
        'parent_id': Text(shape=(), dtype=tf.string),
        'text': Text(shape=(), dtype=tf.string),
    }),
})
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}