imdb_reviews

  • 설명 :

대형 영화 리뷰 데이터 세트. 이것은 이전 벤치마크 데이터 세트보다 훨씬 더 많은 데이터를 포함하는 이진 감정 분류용 데이터 세트입니다. 우리는 교육용으로 25,000개의 극단적인 영화 리뷰 세트와 테스트용으로 25,000개의 세트를 제공합니다. 레이블이 지정되지 않은 추가 데이터도 사용할 수 있습니다.

나뉘다
'test' 25,000
'train' 25,000
'unsupervised' 50,000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text(기본 구성)

  • 구성 설명 : 일반 텍스트

  • 데이터 세트 크기 : 129.83 MiB

  • 기능 구조 :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
상표 클래스 레이블 int64
텍스트 텍스트

imdb_리뷰/바이트

  • 구성 설명 : tfds.deprecated.text.ByteTextEncoder 와 함께 바이트 수준 텍스트 인코딩을 사용합니다.

  • 데이터 세트 크기 : 129.88 MiB

  • 기능 구조 :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
상표 클래스 레이블 int64
텍스트 텍스트 (없음,) int64

imdb_reviews/subwords8k

  • 구성 설명 : 8k vocab 크기의 tfds.deprecated.text.SubwordTextEncoder 사용

  • 데이터 세트 크기 : 54.72 MiB

  • 기능 구조 :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
상표 클래스 레이블 int64
텍스트 텍스트 (없음,) int64

imdb_reviews/subwords32k

  • 구성 설명 : 32k vocab 크기의 tfds.deprecated.text.SubwordTextEncoder 사용

  • 데이터 세트 크기 : 50.33 MiB

  • 기능 구조 :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
상표 클래스 레이블 int64
텍스트 텍스트 (없음,) int64