reddit_disentanglement

  • Mô tả :

Bộ dữ liệu này chứa ~3 triệu tin nhắn từ reddit. Mỗi tin nhắn được gắn nhãn với siêu dữ liệu. Nhiệm vụ là dự đoán id của thông báo gốc của nó trong luồng tương ứng. Mỗi bản ghi chứa một danh sách các tin nhắn từ một chuỗi. Các bản ghi trùng lặp và bị hỏng sẽ bị xóa khỏi tập dữ liệu.

Các tính năng là:

  • id - id tin nhắn
  • văn bản - văn bản tin nhắn
  • tác giả - tác giả tin nhắn
  • created_utc - dấu thời gian UTC của tin nhắn
  • link_id - id của bài đăng mà nhận xét liên quan đến

Mục tiêu:

  • parent_id - id của tin nhắn gốc trong chuỗi hiện tại

  • Trang chủ : https://github.com/henghuiz/MaskedHierarchicalTransformer

  • Mã nguồn : tfds.datasets.reddit_disentanglement.Builder

  • Phiên bản :

    • 2.0.0 (mặc định): Không có ghi chú phát hành.
  • Kích thước tải xuống : Unknown size

  • Kích thước tập dữ liệu : Unknown size

  • Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Tải xuống https://github.com/henghuiz/MaskedHierarchicalTransformer, giải nén raw_data.zip và chạy generate_dataset.py bằng thông tin đăng nhập api reddit của bạn. Sau đó đặt train.csv, val.csv và test.csv từ thư mục đầu ra vào thư mục thủ công.

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không xác định

  • Chia tách :

Tách ra ví dụ
  • Cấu trúc tính năng :
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
chủ đề Sự nối tiếp
chủ đề/tác giả Chữ chuỗi
chủ đề/created_utc Chữ chuỗi
chủ đề/id Chữ chuỗi
chủ đề/link_id Chữ chuỗi
chủ đề/parent_id Chữ chuỗi
chủ đề/văn bản Chữ chuỗi
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}