- Описание:
WikiAuto предоставляет набор выровненных предложений из английской Википедии и Simple English Wikipedia в качестве ресурса для обучения системам упрощения предложений. Авторы первой толпы источников набор ручного выравнивания между предложениями в подмножестве простой английской Википедии и их соответствующих версий в английской Википедии (это соответствует manual
конфигурации), то обучил нервную систему CRF , чтобы предсказать эти выравнивания. Подготовленная модель была применена для других статей в простом английской Википедии с английским коллегой , чтобы создать больший корпус выровненных предложений (соответствующих auto
, auto_acl
, auto_full_no_split
и auto_full_with_split
конфиги здесь).
Домашняя страница: https://github.com/chaojiang06/wiki-auto
Исходный код:
tfds.text_simplification.wiki_auto.WikiAuto
Версии:
-
1.0.0
( по умолчанию): Первый выпуск.
-
Контролируемые ключи (см
as_supervised
документ ):None
Рис ( tfds.show_examples ): Не поддерживается.
Образец цитирования:
@inproceedings{acl/JiangMLZX20,
author = {Chao Jiang and
Mounica Maddela and
Wuwei Lan and
Yang Zhong and
Wei Xu},
editor = {Dan Jurafsky and
Joyce Chai and
Natalie Schluter and
Joel R. Tetreault},
title = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
pages = {7943--7960},
publisher = {Association for Computational Linguistics},
year = {2020},
url = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
wiki_auto / manual (конфигурация по умолчанию)
Описание Config: Набор 10K Википедия пары предложений выровненных работников толпы.
Скачать Размер:
53.47 MiB
Dataset Размер:
76.87 MiB
Авто-кэшируются ( документация ): Да
расколы:
Расколоть | Примеры |
---|---|
'dev' | 73 249 |
'test' | 118 074 |
- Особенности:
FeaturesDict({
'GLEU-score': tf.float64,
'alignment_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
'normal_sentence': Text(shape=(), dtype=tf.string),
'normal_sentence_id': Text(shape=(), dtype=tf.string),
'simple_sentence': Text(shape=(), dtype=tf.string),
'simple_sentence_id': Text(shape=(), dtype=tf.string),
})
- Примеры ( tfds.as_dataframe ):
wiki_auto / auto_acl
Config Описание: пары Речевые выровнены обучить систему ACL2020.
Скачать Размер:
112.60 MiB
Dataset Размер:
138.83 MiB
Авто-кэшируются ( документация ): Только при
shuffle_files=False
(полный)расколы:
Расколоть | Примеры |
---|---|
'full' | 488 332 |
- Особенности:
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=tf.string),
'simple_sentence': Text(shape=(), dtype=tf.string),
})
- Примеры ( tfds.as_dataframe ):
wiki_auto / auto_full_no_split
Описание Config: Все автоматически выровненные пары предложений без предложения расщепления.
Скачать Размер:
135.02 MiB
Dataset Размер:
166.78 MiB
Авто-кэшируются ( документация ): Только при
shuffle_files=False
(полный)расколы:
Расколоть | Примеры |
---|---|
'full' | 591 994 |
- Особенности:
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=tf.string),
'simple_sentence': Text(shape=(), dtype=tf.string),
})
- Примеры ( tfds.as_dataframe ):
wiki_auto / auto_full_with_split
Описание Config: Все автоматически выровненные пары предложения с предложением расщеплением.
Скачать Размер:
115.09 MiB
Dataset Размер:
141.20 MiB
Авто-кэшируются ( документация ): Только при
shuffle_files=False
(полный)расколы:
Расколоть | Примеры |
---|---|
'full' | 483 801 |
- Особенности:
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=tf.string),
'simple_sentence': Text(shape=(), dtype=tf.string),
})
- Примеры ( tfds.as_dataframe ):
wiki_auto / auto
Описание конфигурации: Большой набор автоматически выравниваются пары предложений.
Скачать Размер:
2.01 GiB
Dataset Размер:
1.76 GiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'part_1' | 125 059 |
'part_2' | 13 036 |
- Особенности:
FeaturesDict({
'example_id': Text(shape=(), dtype=tf.string),
'normal': FeaturesDict({
'normal_article_content': Sequence({
'normal_sentence': Text(shape=(), dtype=tf.string),
'normal_sentence_id': Text(shape=(), dtype=tf.string),
}),
'normal_article_id': tf.int32,
'normal_article_title': Text(shape=(), dtype=tf.string),
'normal_article_url': Text(shape=(), dtype=tf.string),
}),
'paragraph_alignment': Sequence({
'normal_paragraph_id': Text(shape=(), dtype=tf.string),
'simple_paragraph_id': Text(shape=(), dtype=tf.string),
}),
'sentence_alignment': Sequence({
'normal_sentence_id': Text(shape=(), dtype=tf.string),
'simple_sentence_id': Text(shape=(), dtype=tf.string),
}),
'simple': FeaturesDict({
'simple_article_content': Sequence({
'simple_sentence': Text(shape=(), dtype=tf.string),
'simple_sentence_id': Text(shape=(), dtype=tf.string),
}),
'simple_article_id': tf.int32,
'simple_article_title': Text(shape=(), dtype=tf.string),
'simple_article_url': Text(shape=(), dtype=tf.string),
}),
})
- Примеры ( tfds.as_dataframe ):