एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

reddit_disentanglement

  • विवरण:

इस डेटासेट में reddit के ~3M संदेश हैं। प्रत्येक संदेश को मेटाडेटा के साथ लेबल किया जाता है। कार्य संबंधित धागे में अपने मूल संदेश की आईडी की भविष्यवाणी करना है। प्रत्येक रिकॉर्ड में एक थ्रेड से संदेशों की एक सूची होती है। डुप्लिकेट और टूटे हुए रिकॉर्ड डेटासेट से हटा दिए जाते हैं।

विशेषताएं हैं: - आईडी - संदेश आईडी - पाठ - संदेश पाठ - लेखक - संदेश लेखक - create_utc - संदेश यूटीसी टाइमस्टैम्प - लिंक_आईडी - पोस्ट की आईडी जो टिप्पणी लक्ष्य से संबंधित है: - parent_id - वर्तमान थ्रेड में मूल संदेश की आईडी

  • होमपेज: https://github.com/henghuiz/MaskedHierarchicalTransformer

  • स्रोत कोड: tfds.text.RedditDisentanglement

  • संस्करण:

    • 2.0.0 (डिफ़ॉल्ट): नहीं रिलीज नोट्स।
  • डाउनलोड का आकार: Unknown size

  • डेटासेट का आकार: Unknown size

  • मैनुअल डाउनलोड के निर्देश: यह डेटासेट आप में मैन्युअल रूप से स्रोत डेटा डाउनलोड करने के लिए की आवश्यकता है download_config.manual_dir (करने के लिए डिफ़ॉल्ट ~/tensorflow_datasets/downloads/manual/ ):
    डाउनलोड https://github.com/henghuiz/MaskedHierarchicalTransformer, दबाव हटाना raw_data.zip और रन generate_dataset.py अपने reddit एपीआई पहचान के साथ। फिर आउटपुट डायरेक्टरी से मैन्युअल फोल्डर में train.csv, val.csv और test.csv डालें।

  • ऑटो-कैश ( प्रलेखन ): अज्ञात

  • विभाजन:

विभाजित करें उदाहरण
  • विशेषताएं:
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=tf.string),
        'created_utc': Text(shape=(), dtype=tf.string),
        'id': Text(shape=(), dtype=tf.string),
        'link_id': Text(shape=(), dtype=tf.string),
        'parent_id': Text(shape=(), dtype=tf.string),
        'text': Text(shape=(), dtype=tf.string),
    }),
})
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}