সম্পদ

  • বর্ণনা :

ASSET হল একাধিক পুনঃলিখন রূপান্তর সহ বাক্য সরলীকরণ সিস্টেমের মূল্যায়ন করার জন্য একটি ডেটাসেট, যেমনটি "ASSET: একাধিক পুনর্লিখন রূপান্তর সহ বাক্য সরলীকরণ মডেলগুলির টিউনিং এবং মূল্যায়নের জন্য একটি ডেটাসেট" এ বর্ণিত। কর্পাসটি 2000টি বৈধতা এবং 359টি পরীক্ষার মূল বাক্য দ্বারা গঠিত যা প্রতিটি ভিন্ন টীকাকার দ্বারা 10 বার সরলীকৃত করা হয়েছে। অনেকগুলি স্বয়ংক্রিয় টেক্সট সরলীকরণ সিস্টেমের আউটপুটগুলির জন্য অর্থ সংরক্ষণ, সাবলীলতা এবং সরলতার মানবিক বিচারও এই সংস্থাটিতে রয়েছে।

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

সম্পদ/সরলীকরণ (ডিফল্ট কনফিগারেশন)

  • কনফিগারের বিবরণ : প্রতিটির জন্য 10টি সম্ভাব্য সরলীকরণের সাথে সারিবদ্ধ মূল বাক্যের একটি সেট।

  • ডেটাসেটের আকার : 2.64 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 359
'validation' 2,000
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
মূল পাঠ্য স্ট্রিং
সরলীকরণ ক্রম (পাঠ্য) (কোনটিই নয়,) স্ট্রিং

সম্পদ/রেটিং

  • কনফিগার বিবরণ : স্বয়ংক্রিয়ভাবে উত্পাদিত পাঠ্য সরলীকরণের মানব রেটিং।

  • ডেটাসেটের আকার : 1.44 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'full' 4,500
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
দৃষ্টিভঙ্গি ক্লাসলেবেল int64
মূল পাঠ্য স্ট্রিং
মূল_বাক্য_আইডি টেনসর int32
রেটিং টেনসর int32
সরলীকরণ পাঠ্য স্ট্রিং
worker_id টেনসর int32