Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

актив

  • Описание:

ASSET - это набор данных для оценки систем упрощения предложений с множественными преобразованиями перезаписи, как описано в разделе «АКТИВ: набор данных для настройки и оценки моделей упрощения предложений с множественными преобразованиями перезаписи». Корпус состоит из 2000 проверочных и 359 тестовых исходных предложений, каждое из которых было упрощено 10 раз разными аннотаторами. Корпус также содержит человеческие суждения о сохранении смысла, беглости и простоте результатов нескольких автоматических систем упрощения текста.

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

актив / упрощение (конфигурация по умолчанию)

  • Описание конфигурации: Набор оригинальных предложений выровненных с 10 возможных упрощений для каждого.

  • Dataset Размер: 2.64 MiB

  • расколы:

Расколоть Примеры
'test' 359
'validation' 2 000
  • Особенности:
FeaturesDict({
    'original': Text(shape=(), dtype=tf.string),
    'simplifications': Sequence(Text(shape=(), dtype=tf.string)),
})

актив / рейтинги

  • Описание конфигурации: рейтинги человека автоматически производится текст упрощения.

  • Dataset Размер: 1.44 MiB

  • расколы:

Расколоть Примеры
'full' 4,500
  • Особенности:
FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'original': Text(shape=(), dtype=tf.string),
    'original_sentence_id': tf.int32,
    'rating': tf.int32,
    'simplification': Text(shape=(), dtype=tf.string),
    'worker_id': tf.int32,
})