irc_disentanglement

Описание :

Набор данных IRC Disentanglement содержит более 77 563 сообщений из IRC-канала Ubuntu.

Особенности включают идентификатор сообщения, текст сообщения и метку времени. Цель — это список сообщений, на которые отвечает текущее сообщение. Каждая запись содержит список сообщений за один день IRC-чата.

Дополнительная документация : изучить документы с кодом
Домашняя страница : https://jkk.name/irc-disentanglement
Исходный код : tfds.datasets.irc_disentanglement.Builder
Версии :
- 2.0.0 (по умолчанию): нет примечаний к выпуску.
Размер загрузки : 113.53 MiB
Размер набора данных : 26.59 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	10
`'train'`	153
`'validation'`	10

Структура функции :

FeaturesDict({
    'day': Sequence({
        'id': Text(shape=(), dtype=string),
        'parents': Sequence(Text(shape=(), dtype=string)),
        'text': Text(shape=(), dtype=string),
        'timestamp': Text(shape=(), dtype=string),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
день	Последовательность
день/идентификатор	Текст		нить
день/родители	Последовательность (текст)	(Никто,)	нить
день/текст	Текст		нить
день/отметка времени	Текст		нить

Ключи под наблюдением (см. документ as_supervised ): None
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):

Цитата :

@InProceedings{acl19disentangle,
  author    = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
  title     = {A Large-Scale Corpus for Conversation Disentanglement},
  booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
  location  = {Florence, Italy},
  month     = {July},
  year      = {2019},
  doi       = {10.18653/v1/P19-1374},
  pages     = {3846--3856},
  url       = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
  arxiv     = {https://arxiv.org/abs/1810.11118},
  software  = {https://jkk.name/irc-disentanglement},
  data      = {https://jkk.name/irc-disentanglement},
}

irc_disentanglement Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

irc_disentanglement