위키하우

  • 설명 :

WikiHow는 온라인 WikiHow( http://www.wikihow.com/ ) 지식 기반을 사용하는 새로운 대규모 데이터 세트입니다.

두 가지 기능이 있습니다. - 텍스트: wikihow는 텍스트에 답변합니다. - 제목: 요약으로 굵은 줄.

두 가지 별도 버전이 있습니다. - 전체: 기사로 모든 ​​단락을 연결하고 참조 요약으로 굵은 선으로 구성됩니다. - sep : 각 문단과 요약문으로 구성.

https://github.com/mahnazkoupaee/WikiHow-Dataset에서 "wikihowAll.csv" 및 "wikihowSep.csv"를 다운로드하고 수동 폴더 https://www.tensorflow.org/datasets/api_docs/python/tfds/ 배치합니다. download/DownloadConfig 학습/검증/테스트 분할은 작성자가 제공합니다. 짧은 기사(초록 길이 < 0.75 기사 길이)를 제거하고 여분의 쉼표를 정리하기 위해 전처리가 적용됩니다.

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow/all(기본 구성)

  • 구성 설명 : 기사는 모든 단락을 연결하여 사용하고 참조 요약은 굵은 선으로 사용하십시오.

  • 데이터 세트 크기 : 531.56 MiB

  • 분할 :

나뉘다
'test' 5,577
'train' 157,252
'validation' 5,599
  • 기능 구조 :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
표제 텍스트
텍스트 텍스트
제목 텍스트

위키하우/9월

  • 구성 설명 : 각 단락과 해당 요약을 사용합니다.

  • 데이터세트 크기 : 1.07 GiB

  • 분할 :

나뉘다
'test' 37,800
'train' 1,060,732
'validation' 37,932
  • 기능 구조 :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'overview': Text(shape=(), dtype=string),
    'sectionLabel': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
표제 텍스트
개요 텍스트
섹션 레이블 텍스트
텍스트 텍스트
제목 텍스트