- Описание:
ASSET - это набор данных для оценки систем упрощения предложений с множественными преобразованиями перезаписи, как описано в разделе «АКТИВ: набор данных для настройки и оценки моделей упрощения предложений с множественными преобразованиями перезаписи». Корпус состоит из 2000 проверочных и 359 тестовых исходных предложений, каждое из которых было упрощено 10 раз разными аннотаторами. Корпус также содержит человеческие суждения о сохранении смысла, беглости и простоте результатов нескольких автоматических систем упрощения текста.
Домашняя страница: https://github.com/facebookresearch/asset
Исходный код:
tfds.text_simplification.asset.Asset
Версии:
-
1.0.0
( по умолчанию): Первый выпуск.
-
Скачать Размер:
3.47 MiB
Авто-кэшируются ( документация ): Да
Контролируемые ключи (см
as_supervised
документ ):None
Рис ( tfds.show_examples ): Не поддерживается.
Образец цитирования:
@inproceedings{alva-manchego-etal-2020-asset,
title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
author = "Alva-Manchego, Fernando and
Martin, Louis and
Bordes, Antoine and
Scarton, Carolina and
Sagot, Benoit and
Specia, Lucia",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.424",
pages = "4668--4679",
}
актив / упрощение (конфигурация по умолчанию)
Описание конфигурации: Набор оригинальных предложений выровненных с 10 возможных упрощений для каждого.
Dataset Размер:
2.64 MiB
расколы:
Расколоть | Примеры |
---|---|
'test' | 359 |
'validation' | 2 000 |
- Особенности:
FeaturesDict({
'original': Text(shape=(), dtype=tf.string),
'simplifications': Sequence(Text(shape=(), dtype=tf.string)),
})
- Примеры ( tfds.as_dataframe ):
актив / рейтинги
Описание конфигурации: рейтинги человека автоматически производится текст упрощения.
Dataset Размер:
1.44 MiB
расколы:
Расколоть | Примеры |
---|---|
'full' | 4,500 |
- Особенности:
FeaturesDict({
'aspect': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
'original': Text(shape=(), dtype=tf.string),
'original_sentence_id': tf.int32,
'rating': tf.int32,
'simplification': Text(shape=(), dtype=tf.string),
'worker_id': tf.int32,
})
- Примеры ( tfds.as_dataframe ):