reddit_disentanglement

คำอธิบาย :

ชุดข้อมูลนี้มี ~3M ข้อความจาก reddit ทุกข้อความถูกกำกับด้วยข้อมูลเมตา ภารกิจคือการทำนาย id ของข้อความหลักในเธรดที่เกี่ยวข้อง แต่ละบันทึกประกอบด้วยรายการข้อความจากหนึ่งเธรด ระเบียนที่ซ้ำกันและเสียหายจะถูกลบออกจากชุดข้อมูล

คุณสมบัติคือ:

รหัส - รหัสข้อความ
ข้อความ - ข้อความ
ผู้เขียน - ผู้เขียนข้อความ
created_utc - การประทับเวลา UTC ของข้อความ
link_id - รหัสของโพสต์ที่เกี่ยวข้องกับความคิดเห็น

เป้า:

parent_id - รหัสของข้อความหลักในเธรดปัจจุบัน
หน้าแรก : https://github.com/henghuiz/MaskedHierarchicalTransformer
รหัสที่มา : tfds.datasets.reddit_disentanglement.Builder
รุ่น :
- 2.0.0 (ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
ขนาดการดาวน์โหลด : Unknown size
ขนาดชุดข้อมูล : Unknown size
คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
ดาวน์โหลด https://github.com/henghuiz/MaskedHierarchicalTransformer คลายไฟล์ raw_data.zip และเรียกใช้ create_dataset.py ด้วยข้อมูลประจำตัว reddit api ของคุณ จากนั้นใส่ train.csv, val.csv และ test.csv จากไดเร็กทอรีผลลัพธ์ลงในโฟลเดอร์ manual
แคชอัตโนมัติ ( เอกสาร ): ไม่รู้จัก
แยก :

แยก	ตัวอย่าง

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})

เอกสารคุณสมบัติ :

คุณสมบัติ	ระดับ	Dประเภท
	คุณสมบัติDict
เกลียว	ลำดับ
กระทู้/ผู้เขียน	ข้อความ	สตริง
กระทู้/created_utc	ข้อความ	สตริง
เธรด/id	ข้อความ	สตริง
เธรด/link_id	ข้อความ	สตริง
เธรด / parent_id	ข้อความ	สตริง
เธรด / ข้อความ	ข้อความ	สตริง

คีย์ภายใต้การดูแล (ดู as_supervised doc ): None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ): ไม่มี
การอ้างอิง :

@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}

reddit_disentanglement จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ

reddit_disentanglement