Эта страница была переведа с помощью Cloud Translation API.
Switch to English

reddit_disentanglement

  • Описание :

Этот набор данных содержит ~ 3 млн сообщений от Reddit. Каждое сообщение помечено метаданными. Задача состоит в том, чтобы предсказать идентификатор его родительского сообщения в соответствующем потоке. Каждая запись содержит список сообщений из одной ветки. Дублированные и поврежденные записи удаляются из набора данных.

Возможности: - id - идентификатор сообщения - текст - текст сообщения - автор - автор сообщения - created_utc - метка времени в формате UTC - link_id - идентификатор сообщения, к которому относится комментарий: - parent_id - идентификатор родительского сообщения в текущем потоке

  • Домашняя страница : https://github.com/henghuiz/MaskedHierarchicalTransformer

  • Исходный код : tfds.text.RedditDisentanglement

  • Версии :

    • 2.0.0 (по умолчанию): без примечаний к выпуску.
  • Размер загрузки : Unknown size

  • Размер набора данных : Unknown size

  • Инструкции по загрузке вручную : для этого набора данных необходимо вручную загрузить исходные данные в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Загрузите https://github.com/henghuiz/MaskedHierarchicalTransformer, распакуйте raw_data.zip и запустите generate_dataset.py со своими учетными данными api reddit. Затем поместите train.csv, val.csv и test.csv из выходного каталога в папку руководства.

  • Автоматическое кэширование ( документация ): неизвестно

  • Сплит :

Трещина Примеры
  • Особенности :
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=tf.string),
        'created_utc': Text(shape=(), dtype=tf.string),
        'id': Text(shape=(), dtype=tf.string),
        'link_id': Text(shape=(), dtype=tf.string),
        'parent_id': Text(shape=(), dtype=tf.string),
        'text': Text(shape=(), dtype=tf.string),
    }),
})
  • Контролируемые ключи (см. as_supervised ): None

  • Цитата :

@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}