뉴스 편집실

  • 설명 :

NEWSROOM은 요약 시스템을 교육하고 평가하기 위한 대규모 데이터 세트입니다. 여기에는 38개 주요 간행물의 뉴스룸에서 저자와 편집자가 작성한 130만 개의 기사와 요약이 포함되어 있습니다.

데이터 세트 기능에는 다음이 포함됩니다.

  • 텍스트: 뉴스 텍스트를 입력합니다.
  • 요약: 뉴스 요약.

추가 기능:

  • 제목: 뉴스 제목.
  • url: 뉴스의 URL.
  • 날짜: 기사의 날짜.
  • 밀도: 추출 밀도.
  • 적용 범위: 추출 적용 범위.
  • 압축: 압축 비율.
  • density_bin: 낮음, 중간, 높음.
  • coverage_bin: 추출, 추상.
  • compression_bin: 낮음, 중간, 높음.

이 데이터 세트는 요청 시 다운로드할 수 있습니다. 모든 콘텐츠 "train.jsonl, dev.jsonl, test.jsonl"을 tfds 폴더에 압축 해제합니다.

  • 추가 문서 : 코드가 있는 논문에서 탐색

  • 홈페이지 : https://summari.es

  • 소스코드 : tfds.datasets.newsroom.Builder

  • 버전 :

    • 1.0.0 (기본값): 릴리스 정보가 없습니다.
  • 다운로드 크기 : Unknown size

  • 데이터세트 크기 : 5.13 GiB

  • 수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로 download_config.manual_dir 해야 합니다(기본값은 ~/tensorflow_datasets/downloads/manual/ ).
    https://summari.es/download/ 에서 데이터 세트를 다운로드해야 합니다. 웹 페이지에 등록이 필요합니다. 다운로드 후 dev.jsonl, test.jsonl 및 train.jsonl 파일을 manual_dir에 넣으십시오.

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 108,862
'train' 995,041
'validation' 108,837
  • 기능 구조 :
FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
압축 텐서 float32
압축_빈 텍스트
적용 범위 텐서 float32
coverage_bin 텍스트
날짜 텍스트
밀도 텐서 float32
밀도_빈 텍스트
요약 텍스트
텍스트 텍스트
제목 텍스트
URL 텍스트
  • 인용 :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}