суммарный экран

  • Описание :

Набор данных SummScreen Summarization, не анонимная, не токенизированная версия.

Разделения и фильтрация обучения/оценки/тестирования основаны на окончательном токенизированном наборе данных, но предоставленные стенограммы и резюме основаны на немаркированном тексте.

Есть две особенности:

  • Стенограмма: полные стенограммы эпизодов, каждая строка диалога разделена новой строкой.
  • recap: Резюме или краткое изложение эпизодов.

  • Домашняя страница : https://github.com/mingdachen/SummScreen

  • Исходный код : tfds.datasets.summscreen.Builder

  • Версии :

    • 1.0.0 (по умолчанию): Первоначальный выпуск.
  • Размер загрузки : 841.27 MiB

  • Контролируемые ключи (см. as_supervised doc ): ('transcript', 'recap')

  • Рисунок ( tfds.show_examples ): не поддерживается.

  • Цитата :

@article{DBLP:journals/corr/abs-2104-07091,
  author    = {Mingda Chen and
               Zewei Chu and
               Sam Wiseman and
               Kevin Gimpel},
  title     = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal   = {CoRR},
  volume    = {abs/2104.07091},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.07091},
  archivePrefix = {arXiv},
  eprint    = {2104.07091},
  timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

summscreen/fd (конфигурация по умолчанию)

  • Описание конфига: ForeverDreaming

  • Размер набора данных : 132.99 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 337
'train' 3673
'validation' 338
  • Структура функции :
FeaturesDict({
    'episode_number': Text(shape=(), dtype=string),
    'episode_title': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Характерная черта Класс Форма Dтип Описание
ОсобенностиDict
эпизод_номер Текст нить
эпизод_название Текст нить
резюмировать Текст нить
показать заголовок Текст нить
стенограмма Текст нить
расшифровка_автор Текст нить

суммарный экран/тмс

  • Описание конфигурации : TVMegaSite

  • Размер набора данных : 592.53 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 1793
'train' 18 915
'validation' 1795
  • Структура функции :
FeaturesDict({
    'episode_summary': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'recap_author': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Tensor(shape=(None,), dtype=string),
})
  • Документация по функциям :
Характерная черта Класс Форма Dтип Описание
ОсобенностиDict
эпизод_резюме Текст нить
резюмировать Текст нить
recap_author Текст нить
показать заголовок Текст нить
стенограмма Текст нить
расшифровка_автор Тензор (Никто,) нить