xsum

  • 설명 :

익스트림 요약(XSum) 데이터 세트.

두 가지 기능이 있습니다. - 문서: 뉴스 기사를 입력합니다. - 요약: 기사의 한 문장 요약.

이 데이터는 https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md 에 설명된 대로 수동으로 다운로드하고 추출해야 합니다. 'xsum-extracts-from-downloads' 폴더는 다음과 같이 압축해야 합니다. 'xsum-extracts-from-downloads.tar.gz'를 수동으로 다운로드한 폴더에 넣습니다.

  • 추가 문서 : 코드가 있는 논문에서 탐색

  • 홈페이지 : https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset

  • 소스 코드 : tfds.summarization.Xsum

  • 버전 :

    • 1.0.0 : 정리하지 않은 데이터셋.
    • 1.1.0 (기본값): 웹 콘텐츠를 제거합니다.
  • 다운로드 크기 : 2.59 MiB

  • 데이터 세트 크기 : 512.03 MiB

  • 수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로 download_config.manual_dir 해야 합니다(기본값은 ~/tensorflow_datasets/downloads/manual/ ).
    자세한 다운로드 지침(사용자 지정 스크립트를 실행해야 함)은 다음에서 확인할 수 있습니다. , xsum-extracts-from-downloads.tar.gz 파일을 manual_dir에 넣으십시오.

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 11,301
'train' 203,577
'validation' 11,305
  • 기능 구조 :
FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
문서 텍스트
요약 텍스트
  • 인용 :
@article{Narayan2018DontGM,
  title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
  author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
  journal={ArXiv},
  year={2018},
  volume={abs/1808.08745}
}