ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

โผ

  • รายละเอียด:

DART (DAta Record to Text generation) มีความสัมพันธ์ของเอนทิตี RDF ที่มีคำอธิบายประกอบประโยคที่ครอบคลุมข้อเท็จจริงทั้งหมดในชุดสามชุด DART ถูกสร้างขึ้นโดยใช้ชุดข้อมูลที่มีอยู่ เช่น WikiTableQuestions, WikiSQL, WebNLG และ Cleaned E2E ตารางจาก WikiTableQuestions และ WikiSQL ถูกแปลงเป็นสามส่วน subject-predicate-object และคำอธิบายประกอบข้อความส่วนใหญ่ถูกรวบรวมจาก MTurk การแสดงแทนความหมายที่มีความหมายใน E2E ยังถูกเปลี่ยนเป็นสามเท่าและมีการใช้คำอธิบาย ซึ่งบางส่วนที่ไม่สามารถแปลงได้ก็ถูกละทิ้ง

การแบ่งชุดข้อมูลของ E2E และ WebNLG จะถูกเก็บไว้ และสำหรับ WikiTableQuestions และ WikiSQL ความคล้ายคลึงของ Jaccard จะถูกใช้เพื่อเก็บตารางที่คล้ายกันไว้ในชุดเดียวกัน (train/dev/tes)

ชุดข้อมูลนี้สร้างขึ้นตามรูปแบบตารางมาตรฐาน

  • โฮมเพจ: https://github.com/Yale-LILY/dart

  • รหัสที่มา: tfds.structured.dart.Dart

  • รุ่น:

    • 0.1.0 (เริ่มต้น): ไม่มีบันทึกประจำรุ่น
  • ขนาดการดาวน์โหลด: 249.71 MiB

  • ขนาดชุด: 38.83 MiB

  • ออโต้แคช ( เอกสาร ): ใช่

  • แยก:

แยก ตัวอย่าง
'test' 12,552
'train' 62,659
'validation' 6,980
  • คุณสมบัติ:
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': tf.string,
            'content': tf.string,
            'row_number': tf.int16,
        }),
    }),
    'target_text': tf.string,
})
  • อ้างอิง:
@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}