varlık

  • Açıklama:

ASSET, "ASSET: Birden Çok Yeniden Yazma Dönüşümlü Cümle Basitleştirme Modellerinin Ayarlanması ve Değerlendirilmesi için Bir Veri Kümesi" bölümünde açıklandığı gibi, birden çok yeniden yazma dönüşümüne sahip Cümle Sadeleştirme sistemlerini değerlendirmek için bir veri kümesidir. Derlem, her biri farklı açıklayıcılar tarafından 10 kez basitleştirilmiş 2000 doğrulama ve 359 test orijinal cümlesinden oluşur. Derlem ayrıca, çeşitli otomatik metin sadeleştirme sistemlerinin çıktıları için anlamın korunması, akıcılık ve basitliğe ilişkin insan yargılarını da içerir.

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

varlık/basitleştirme (varsayılan yapılandırma)

  • Yapılandırma açıklaması: her biri için 10 olası basitleştirmeler hizalanmış orijinal cümle grubu.

  • Veri kümesi boyutu: 2.64 MiB

  • Splits:

Bölmek Örnekler
'test' 359
'validation' 2.000
  • Özellikler:
FeaturesDict({
    'original': Text(shape=(), dtype=tf.string),
    'simplifications': Sequence(Text(shape=(), dtype=tf.string)),
})

varlık/derecelendirme

  • Yapılandırma tanımı: otomatik üretilen metin basitleştirme İnsan derecelendirme.

  • Veri kümesi boyutu: 1.44 MiB

  • Splits:

Bölmek Örnekler
'full' 4.500
  • Özellikler:
FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'original': Text(shape=(), dtype=tf.string),
    'original_sentence_id': tf.int32,
    'rating': tf.int32,
    'simplification': Text(shape=(), dtype=tf.string),
    'worker_id': tf.int32,
})