yahoo_ltrc

  • 설명 :

Yahoo Learning to Rank Challenge 데이터 세트("C14"라고도 함)는 Yahoo에서 출시한 Learning-to-Rank 데이터 세트입니다. 데이터 세트는 기능 벡터로 표시되는 쿼리-문서 쌍과 해당 관련성 판단 레이블로 구성됩니다.

데이터 세트에는 두 가지 버전이 포함되어 있습니다.

  • set1 : 709,877개의 쿼리-문서 쌍을 포함합니다.
  • set2 : 172,870개의 쿼리-문서 쌍을 포함합니다.

다음과 같이 데이터 세트의 set1 또는 set2 버전을 사용할지 여부를 지정할 수 있습니다.

ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")

yahoo_ltrc 만 지정된 경우 기본적으로 yahoo_ltrc/set1 옵션이 선택됩니다.

# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
  • 홈페이지 : https://research.yahoo.com/datasets

  • 소스 코드 : tfds.ranking.yahoo_ltrc.YahooLTRC

  • 버전 :

    • 1.0.0 : 최초 릴리스.
    • 1.1.0 (기본값): 쿼리 및 문서 식별자를 추가합니다.
  • 다운로드 크기 : Unknown size

  • 수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로 download_config.manual_dir 해야 합니다(기본값은 ~/tensorflow_datasets/downloads/manual/ ).
    https://research.yahoo.com/datasets 에서 C14 Yahoo Learning To Rank Challenge 데이터세트에 대한 액세스를 요청합니다. 다운로드한 dataset.tgz 파일을 추출하고 ltrc_yahoo.tar.bz2 파일을 manual_dir/ 에 넣습니다.

  • 감독된 키 ( as_supervised 문서 참조): None

  • 그림 ( tfds.show_examples ): 지원되지 않습니다.

  • 인용 :

@inproceedings{chapelle2011yahoo,
  title={Yahoo! learning to rank challenge overview},
  author={Chapelle, Olivier and Chang, Yi},
  booktitle={Proceedings of the learning to rank challenge},
  pages={1--24},
  year={2011},
  organization={PMLR}
}

yahoo_ltrc/set1(기본 구성)

  • 데이터 세트 크기 : 795.39 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 6,983
'train' 19,944
'vali' 2,994
  • 기능 구조 :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 699), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
doc_id 텐서 (없음,) int64
float_features 텐서 (없음, 699) float64
상표 텐서 (없음,) float64
query_id 텍스트

yahoo_ltrc/set2

  • 데이터 세트 크기 : 194.92 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 3,798
'train' 1,266
'vali' 1,266
  • 기능 구조 :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 700), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
doc_id 텐서 (없음,) int64
float_features 텐서 (없음, 700) float64
상표 텐서 (없음,) float64
query_id 텍스트