ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

reddit_disentanglement

  • รายละเอียด:

ชุดข้อมูลนี้มีข้อความประมาณ 3 ล้านข้อความจาก Reddit ทุกข้อความมีป้ายกำกับด้วยข้อมูลเมตา งานคือการทำนายรหัสของข้อความหลักในเธรดที่เกี่ยวข้อง แต่ละระเบียนมีรายการข้อความจากชุดข้อความเดียว บันทึกที่ซ้ำกันและใช้งานไม่ได้จะถูกลบออกจากชุดข้อมูล

คุณสมบัติคือ: - id - รหัสข้อความ - ข้อความ - ข้อความ - ผู้เขียน - ผู้เขียนข้อความ - created_utc - ข้อความ UTC timestamp - link_id - id ของโพสต์ที่ความคิดเห็นเกี่ยวข้องกับเป้าหมาย: - parent_id - id ของข้อความหลักในเธรดปัจจุบัน

  • โฮมเพจ: https://github.com/henghuiz/MaskedHierarchicalTransformer

  • รหัสที่มา: tfds.text.RedditDisentanglement

  • รุ่น:

    • 2.0.0 (เริ่มต้น): ไม่มีบันทึกประจำรุ่น
  • ขนาดการดาวน์โหลด: Unknown size

  • ขนาดชุด: Unknown size

  • คำแนะนำการดาวน์โหลดคู่มือ: ชุดนี้คุณจะต้องดาวน์โหลดข้อมูลแหล่งที่มาของตนเองลงใน download_config.manual_dir (ค่าเริ่มต้น ~/tensorflow_datasets/downloads/manual/ ):
    ดาวน์โหลด https://github.com/henghuiz/MaskedHierarchicalTransformer, ขยาย raw_data.zip และเรียก generate_dataset.py มีสิทธิ API Reddit ของคุณ จากนั้นใส่ train.csv, val.csv และ test.csv จากไดเร็กทอรีเอาต์พุตลงในโฟลเดอร์ manual

  • ออโต้แคช ( เอกสาร ): ไม่ทราบ

  • แยก:

สปลิต ตัวอย่าง
  • คุณสมบัติ:
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=tf.string),
        'created_utc': Text(shape=(), dtype=tf.string),
        'id': Text(shape=(), dtype=tf.string),
        'link_id': Text(shape=(), dtype=tf.string),
        'parent_id': Text(shape=(), dtype=tf.string),
        'text': Text(shape=(), dtype=tf.string),
    }),
})
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • รูป ( tfds.show_examples ): ไม่ได้รับการสนับสนุน

  • ตัวอย่าง ( tfds.as_dataframe ): หายไป

  • อ้างอิง:

@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}