- Описание :
Набор данных Reddit, где TIFU обозначает имя subbreddit / r / tifu. Как определено в публикации, стиль «короткий» использует заголовок как сводку, а «длинный» использует tldr как сводку.
Возможности включают в себя: - документ: текст сообщения без TLDR. - tldr: строка tldr. - title: обрезанный заголовок без tldr. - ups: положительные голоса. - оценка: оценка. - num_comments: количество комментариев. - upvote_ratio: соотношение голосов.
Домашняя страница : https://github.com/ctr4si/MMN
Исходный код :
tfds.summarization.RedditTifu
Версии :
-
1.1.0
(по умолчанию): без примечаний к выпуску.
-
Размер загрузки :
639.54 MiB
Размер набора данных :
Unknown size
Автоматическое кэширование ( документация ): неизвестно
Особенности :
FeaturesDict({
'documents': Text(shape=(), dtype=tf.string),
'num_comments': tf.float32,
'score': tf.float32,
'title': Text(shape=(), dtype=tf.string),
'tldr': Text(shape=(), dtype=tf.string),
'ups': tf.float32,
'upvote_ratio': tf.float32,
})
- Цитата :
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Рисунок ( tfds.show_examples ): не поддерживается.
reddit_tifu / short (конфигурация по умолчанию)
Описание конфигурации : использование заголовка в качестве резюме.
Сплит :
Трещина | Примеры |
---|---|
'train' | 79 740 |
Контролируемые ключи (см.
as_supervised
doc ):('documents', 'title')
Примеры ( tfds.as_dataframe ):
reddit_tifu / длинный
Описание конфигурации : использование TL; DR в качестве сводки.
Сплит :
Трещина | Примеры |
---|---|
'train' | 42 139 |
Контролируемые ключи (см.
as_supervised
doc ):('documents', 'tldr')
Примеры ( tfds.as_dataframe ):