- Описание:
Этот набор данных содержит ~ 3 млн сообщений от Reddit. Каждое сообщение помечено метаданными. Задача состоит в том, чтобы предсказать идентификатор его родительского сообщения в соответствующем потоке. Каждая запись содержит список сообщений из одной цепочки. Дублированные и поврежденные записи удаляются из набора данных.
Возможности: - id - идентификатор сообщения - текст - текст сообщения - автор - автор сообщения - created_utc - отметка времени UTC сообщения - link_id - идентификатор сообщения, к которому относится комментарий: - parent_id - идентификатор родительского сообщения в текущем потоке
Домашняя страница: https://github.com/henghuiz/MaskedHierarchicalTransformer
Исходный код:
tfds.text.RedditDisentanglement
Версии:
-
2.0.0
( по умолчанию): Нет Замечания к выпуску.
-
Размер загрузки:
Unknown size
Dataset размер:
Unknown size
Руководство по эксплуатации скачать: Этот набор данных требует от вас , чтобы загрузить исходные данные вручную в
download_config.manual_dir
( по умолчанию~/tensorflow_datasets/downloads/manual/
):
Скачать https://github.com/henghuiz/MaskedHierarchicalTransformer, распаковка raw_data.zip и запустить generate_dataset.py с учетными данными API Reddit. Затем поместите train.csv, val.csv и test.csv из выходного каталога в папку руководства.Авто-кэшируются ( документация ): Unknown
расколы:
Расколоть | Примеры |
---|
- Особенности:
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=tf.string),
'created_utc': Text(shape=(), dtype=tf.string),
'id': Text(shape=(), dtype=tf.string),
'link_id': Text(shape=(), dtype=tf.string),
'parent_id': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
}),
})
Контролируемые ключи (см
as_supervised
документ ):None
Рис ( tfds.show_examples ): Не поддерживается.
Примеры ( tfds.as_dataframe ): Отсутствует.
Образец цитирования:
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}