Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

reddit_tifu

  • Описание:

Набор данных Reddit, где TIFU обозначает имя subbreddit / r / tifu. Как определено в публикации, стиль «короткий» использует заголовок как сводку, а «длинный» использует tldr как сводку.

Возможности включают в себя: - документ: текст сообщения без TLDR. - tldr: строка tldr. - title: обрезанный заголовок без tldr. - ups: положительные голоса. - оценка: оценка. - num_comments: количество комментариев. - upvote_ratio: соотношение голосов.

FeaturesDict({
    'documents': Text(shape=(), dtype=tf.string),
    'num_comments': tf.float32,
    'score': tf.float32,
    'title': Text(shape=(), dtype=tf.string),
    'tldr': Text(shape=(), dtype=tf.string),
    'ups': tf.float32,
    'upvote_ratio': tf.float32,
})
  • Рис ( tfds.show_examples ): Не поддерживается.

  • Образец цитирования:

@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu / short (конфигурация по умолчанию)

  • Описание конфигурации: Использование названия в качестве резюме.

  • расколы:

Расколоть Примеры
'train' 79 740

reddit_tifu / длинный

  • Описание конфигурации: Использование TLDR в качестве резюме.

  • расколы:

Расколоть Примеры
'train' 42 139