เนื้อหา

  • คำอธิบาย :

ASSET เป็นชุดข้อมูลสำหรับการประเมินระบบการทำให้ประโยคง่ายขึ้นด้วยการแปลงการเขียนซ้ำหลายครั้ง ดังที่อธิบายไว้ใน "ASSET: ชุดข้อมูลสำหรับการปรับแต่งและการประเมินแบบจำลองการทำให้ประโยคเข้าใจง่ายด้วยการแปลงการเขียนซ้ำหลายครั้ง" คลังข้อมูลประกอบด้วยการตรวจสอบความถูกต้อง 2,000 รายการและการทดสอบประโยคต้นฉบับ 359 ประโยคซึ่งแต่ละประโยคถูกทำให้ง่ายขึ้น 10 ครั้งโดยคำอธิบายประกอบที่แตกต่างกัน คลังข้อมูลยังมีการตัดสินโดยมนุษย์เกี่ยวกับการรักษาความหมาย ความคล่องแคล่ว และความเรียบง่ายสำหรับผลลัพธ์ของระบบลดความซับซ้อนของข้อความอัตโนมัติหลายระบบ

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

เนื้อหา/การทำให้เข้าใจง่าย (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า : ชุดของประโยคดั้งเดิมที่สอดคล้องกับการทำให้เข้าใจง่ายที่เป็นไปได้ 10 รายการสำหรับแต่ละประโยค

  • ขนาดชุดข้อมูล : 2.64 MiB

  • แยก :

แยก ตัวอย่าง
'test' 359
'validation' 2,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ต้นฉบับ ข้อความ สตริง
การทำให้เข้าใจง่าย ลำดับ (ข้อความ) (ไม่มี,) สตริง

เนื้อหา/การให้คะแนน

  • คำอธิบาย การกำหนดค่า : การให้คะแนนของมนุษย์สำหรับการทำให้ข้อความง่ายขึ้นโดยอัตโนมัติ

  • ขนาดชุดข้อมูล : 1.44 MiB

  • แยก :

แยก ตัวอย่าง
'full' 4,500
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ด้าน ป้ายกำกับคลาส int64
ต้นฉบับ ข้อความ สตริง
original_sentence_id เทนเซอร์ int32
คะแนน เทนเซอร์ int32
การทำให้เข้าใจง่าย ข้อความ สตริง
รหัสผู้ปฏิบัติงาน เทนเซอร์ int32