reddit_disentanglement

Описание :

Этот набор данных содержит около 3 млн сообщений с Reddit. Каждое сообщение помечено метаданными. Задача состоит в том, чтобы предсказать идентификатор своего родительского сообщения в соответствующем потоке. Каждая запись содержит список сообщений из одного потока. Дублированные и неработающие записи удаляются из набора данных.

Особенности:

id - идентификатор сообщения
текст - текст сообщения
автор - автор сообщения
created_utc - временная метка сообщения в формате UTC
link_id - id поста, к которому относится комментарий

Цель:

parent_id - id родительского сообщения в текущем треде
Домашняя страница : https://github.com/henghuiz/MaskedHierarchicalTransformer
Исходный код : tfds.datasets.reddit_disentanglement.Builder
Версии :
- 2.0.0 (по умолчанию): нет примечаний к выпуску.
Размер загрузки : Unknown size
Размер набора данных : Unknown size
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
Загрузите https://github.com/henghuiz/MaskedHierarchicalTransformer, распакуйте файл raw_data.zip и запустите generate_dataset.py с вашими учетными данными Reddit API. Затем поместите train.csv, val.csv и test.csv из выходного каталога в папку руководства.
Автокэширование ( документация ): неизвестно
Сплиты :

Расколоть	Примеры

Структура функции :

FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Dтип
	ОсобенностиDict
нить	Последовательность
тема/автор	Текст	нить
поток / created_utc	Текст	нить
поток/идентификатор	Текст	нить
поток/link_id	Текст	нить
поток/parent_id	Текст	нить
нить/текст	Текст	нить

Ключи под наблюдением (см . документ as_supervised ): None
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ): отсутствует.
Цитата :

@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}

reddit_disentanglement Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

reddit_disentanglement