reddit_disentanglement

설명 :

이 데이터 세트에는 reddit에서 보낸 ~3M 메시지가 포함되어 있습니다. 모든 메시지에는 메타데이터로 레이블이 지정됩니다. 작업은 해당 스레드에서 상위 메시지의 ID를 예측하는 것입니다. 각 레코드에는 한 스레드의 메시지 목록이 포함됩니다. 중복되거나 끊어진 레코드는 데이터 세트에서 제거됩니다.

기능은 다음과 같습니다.

ID - 메시지 ID
텍스트 - 메시지 텍스트
작성자 - 메시지 작성자
created_utc - 메시지 UTC 타임스탬프
link_id - 댓글과 관련된 게시물의 ID

표적:

parent_id - 현재 스레드에 있는 상위 메시지의 ID
홈페이지 : https://github.com/henghuiz/MaskedHierarchicalTransformer
소스 코드 : tfds.datasets.reddit_disentanglement.Builder
버전 :
- 2.0.0 (기본값): 릴리스 정보가 없습니다.
다운로드 크기 : Unknown size
데이터세트 크기 : Unknown size
수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로 download_config.manual_dir 해야 합니다(기본값은 ~/tensorflow_datasets/downloads/manual/ ).
https://github.com/henghuiz/MaskedHierarchicalTransformer를 다운로드하고 raw_data.zip의 압축을 풀고 reddit api 자격 증명으로 generate_dataset.py를 실행합니다. 그런 다음 출력 디렉터리의 train.csv, val.csv 및 test.csv를 manual 폴더에 넣습니다.
자동 캐시 됨( 문서 ): 알 수 없음
분할 :

나뉘다	예

기능 구조 :

FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})

기능 문서 :

특징	수업	D타입
	풍모Dict
실	순서
스레드/저자	텍스트	끈
스레드/created_utc	텍스트	끈
스레드/ID	텍스트	끈
스레드/link_id	텍스트	끈
스레드/parent_id	텍스트	끈
스레드/텍스트	텍스트	끈

감독된 키 ( as_supervised 문서 참조): None
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ): 누락.
인용 :

@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}

reddit_disentanglement 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

reddit_disentanglement