суммарный экран

Описание :

Набор данных SummScreen Summarization, не анонимная, не токенизированная версия.

Разделения и фильтрация обучения/оценки/тестирования основаны на окончательном токенизированном наборе данных, но предоставленные стенограммы и резюме основаны на немаркированном тексте.

Есть две особенности:

Стенограмма: полные стенограммы эпизодов, каждая строка диалога разделена новой строкой.
recap: Резюме или краткое изложение эпизодов.
Домашняя страница : https://github.com/mingdachen/SummScreen
Исходный код : tfds.datasets.summscreen.Builder
Версии :
- 1.0.0 (по умолчанию): Первоначальный выпуск.
Размер загрузки : 841.27 MiB
Контролируемые ключи (см. as_supervised doc ): ('transcript', 'recap')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :

@article{DBLP:journals/corr/abs-2104-07091,
  author    = {Mingda Chen and
               Zewei Chu and
               Sam Wiseman and
               Kevin Gimpel},
  title     = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal   = {CoRR},
  volume    = {abs/2104.07091},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.07091},
  archivePrefix = {arXiv},
  eprint    = {2104.07091},
  timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

summscreen/fd (конфигурация по умолчанию)

Описание конфига: ForeverDreaming
Размер набора данных : 132.99 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	337
`'train'`	3673
`'validation'`	338

Структура функции :

FeaturesDict({
    'episode_number': Text(shape=(), dtype=string),
    'episode_title': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Text(shape=(), dtype=string),
})

Документация по функциям :

Характерная черта	Класс	Dтип
	ОсобенностиDict
эпизод_номер	Текст	нить
эпизод_название	Текст	нить
резюмировать	Текст	нить
показать заголовок	Текст	нить
стенограмма	Текст	нить
расшифровка_автор	Текст	нить

Примеры ( tfds.as_dataframe ):

суммарный экран/тмс

Описание конфигурации : TVMegaSite
Размер набора данных : 592.53 MiB .
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'test'`	1793
`'train'`	18 915
`'validation'`	1795

Структура функции :

FeaturesDict({
    'episode_summary': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'recap_author': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Tensor(shape=(None,), dtype=string),
})

Документация по функциям :

Характерная черта	Класс	Форма	Dтип
	ОсобенностиDict
эпизод_резюме	Текст		нить
резюмировать	Текст		нить
recap_author	Текст		нить
показать заголовок	Текст		нить
стенограмма	Текст		нить
расшифровка_автор	Тензор	(Никто,)	нить

Примеры ( tfds.as_dataframe ):

суммарный экран Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

summscreen/fd (конфигурация по умолчанию)

суммарный экран/тмс

суммарный экран