Эта страница была переведа с помощью Cloud Translation API.
Switch to English

reddit_tifu

  • Описание :

Набор данных Reddit, где TIFU обозначает имя subbreddit / r / tifu. Как определено в публикации, стиль «короткий» использует заголовок как сводку, а «длинный» использует tldr как сводку.

Возможности включают:

  • документ: текст публикации без tldr.
  • tldr: строка tldr.
  • title: обрезанный заголовок без tldr.
  • ups: положительные голоса.
  • оценка: оценка.
  • num_comments: количество комментариев.
  • upvote_ratio: коэффициент положительных голосов.

  • Домашняя страница : https://github.com/ctr4si/MMN

  • Исходный код : tfds.summarization.RedditTifu

  • Версии :

    • 1.1.0 (по умолчанию): без примечаний к выпуску.
  • Размер загрузки : 639.54 MiB

  • Размер набора данных : Unknown size

  • Автоматическое кэширование ( документация ): неизвестно

  • Особенности :

FeaturesDict({
    'documents': Text(shape=(), dtype=tf.string),
    'num_comments': tf.float32,
    'score': tf.float32,
    'title': Text(shape=(), dtype=tf.string),
    'tldr': Text(shape=(), dtype=tf.string),
    'ups': tf.float32,
    'upvote_ratio': tf.float32,
})
  • Цитата :
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu / short (конфигурация по умолчанию)

  • Описание конфигурации : использование заголовка в качестве резюме.

  • Сплит :

Трещина Примеры
'train' 79 740

reddit_tifu / длинный

  • Описание конфигурации : использование TLDR в качестве сводки.

  • Сплит :

Трещина Примеры
'train' 42 139