เนื้อหา

 • คำอธิบาย :

ASSET เป็นชุดข้อมูลสำหรับการประเมินระบบการทำให้ประโยคง่ายขึ้นด้วยการแปลงการเขียนซ้ำหลายครั้ง ดังที่อธิบายไว้ใน "ASSET: ชุดข้อมูลสำหรับการปรับแต่งและการประเมินแบบจำลองการทำให้ประโยคเข้าใจง่ายด้วยการแปลงการเขียนซ้ำหลายครั้ง" คลังข้อมูลประกอบด้วยการตรวจสอบความถูกต้อง 2,000 รายการและการทดสอบประโยคต้นฉบับ 359 ประโยคซึ่งแต่ละประโยคถูกทำให้ง่ายขึ้น 10 ครั้งโดยคำอธิบายประกอบที่แตกต่างกัน คลังข้อมูลยังมีการตัดสินโดยมนุษย์เกี่ยวกับการรักษาความหมาย ความคล่องแคล่ว และความเรียบง่ายสำหรับผลลัพธ์ของระบบลดความซับซ้อนของข้อความอัตโนมัติหลายระบบ

@inproceedings{alva-manchego-etal-2020-asset,
  title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
  author = "Alva-Manchego, Fernando and
   Martin, Louis and
   Bordes, Antoine and
   Scarton, Carolina and
   Sagot, Benoit and
   Specia, Lucia",
  booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
  month = jul,
  year = "2020",
  address = "Online",
  publisher = "Association for Computational Linguistics",
  url = "https://www.aclweb.org/anthology/2020.acl-main.424",
  pages = "4668--4679",
}

เนื้อหา/การทำให้เข้าใจง่าย (การกำหนดค่าเริ่มต้น)

 • คำอธิบาย การกำหนดค่า : ชุดของประโยคดั้งเดิมที่สอดคล้องกับการทำให้เข้าใจง่ายที่เป็นไปได้ 10 รายการสำหรับแต่ละประโยค

 • ขนาดชุดข้อมูล : 2.64 MiB

 • แยก :

แยก ตัวอย่าง
'test' 359
'validation' 2,000
 • โครงสร้างคุณลักษณะ :
FeaturesDict({
  'original': Text(shape=(), dtype=string),
  'simplifications': Sequence(Text(shape=(), dtype=string)),
})
 • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ต้นฉบับ ข้อความ สตริง
การทำให้เข้าใจง่าย ลำดับ (ข้อความ) (ไม่มี,) สตริง

เนื้อหา/การให้คะแนน

 • คำอธิบาย การกำหนดค่า : การให้คะแนนของมนุษย์สำหรับการทำให้ข้อความง่ายขึ้นโดยอัตโนมัติ

 • ขนาดชุดข้อมูล : 1.44 MiB

 • แยก :

แยก ตัวอย่าง
'full' 4,500
 • โครงสร้างคุณลักษณะ :
FeaturesDict({
  'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
  'original': Text(shape=(), dtype=string),
  'original_sentence_id': int32,
  'rating': int32,
  'simplification': Text(shape=(), dtype=string),
  'worker_id': int32,
})
 • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ด้าน ป้ายกำกับคลาส int64
ต้นฉบับ ข้อความ สตริง
original_sentence_id เทนเซอร์ int32
คะแนน เทนเซอร์ int32
การทำให้เข้าใจง่าย ข้อความ สตริง
รหัสผู้ปฏิบัติงาน เทนเซอร์ int32