reddit_disentanglement

  • 설명 :

이 데이터 세트에는 reddit에서 보낸 ~3M 메시지가 포함되어 있습니다. 모든 메시지에는 메타데이터로 레이블이 지정됩니다. 작업은 해당 스레드에서 상위 메시지의 ID를 예측하는 것입니다. 각 레코드에는 한 스레드의 메시지 목록이 포함됩니다. 중복되거나 끊어진 레코드는 데이터 세트에서 제거됩니다.

기능은 다음과 같습니다.

  • ID - 메시지 ID
  • 텍스트 - 메시지 텍스트
  • 작성자 - 메시지 작성자
  • created_utc - 메시지 UTC 타임스탬프
  • link_id - 댓글과 관련된 게시물의 ID

표적:

  • parent_id - 현재 스레드에 있는 상위 메시지의 ID

  • 홈페이지 : https://github.com/henghuiz/MaskedHierarchicalTransformer

  • 소스 코드 : tfds.datasets.reddit_disentanglement.Builder

  • 버전 :

    • 2.0.0 (기본값): 릴리스 정보가 없습니다.
  • 다운로드 크기 : Unknown size

  • 데이터세트 크기 : Unknown size

  • 수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로 download_config.manual_dir 해야 합니다(기본값은 ~/tensorflow_datasets/downloads/manual/ ).
    https://github.com/henghuiz/MaskedHierarchicalTransformer를 다운로드하고 raw_data.zip의 압축을 풀고 reddit api 자격 증명으로 generate_dataset.py를 실행합니다. 그런 다음 출력 디렉터리의 train.csv, val.csv 및 test.csv를 manual 폴더에 넣습니다.

  • 자동 캐시 됨( 문서 ): 알 수 없음

  • 분할 :

나뉘다
  • 기능 구조 :
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
순서
스레드/저자 텍스트
스레드/created_utc 텍스트
스레드/ID 텍스트
스레드/link_id 텍스트
스레드/parent_id 텍스트
스레드/텍스트 텍스트
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}