mslr_web

  • 설명 :

MSLR-WEB은 Microsoft Research에서 발표한 두 개의 대규모 Learning-to-Rank 데이터 세트입니다. 첫 번째 데이터 세트("30k"라고 함)에는 30,000개의 쿼리가 포함되어 있고 두 번째 데이터 세트("10k"라고 함)에는 10,000개의 쿼리가 포함되어 있습니다. 각 데이터 세트는 기능 벡터로 표시되는 쿼리-문서 쌍과 해당 관련성 판단 레이블로 구성됩니다.

다음과 같이 데이터 세트의 "10k" 또는 "30k" 버전과 해당 접기를 사용할지 여부를 지정할 수 있습니다.

ds = tfds.load("mslr_web/30k_fold1")

mslr_web 만 지정된 경우 기본적으로 mslr_web/10k_fold1 옵션이 선택됩니다.

# This is the same as `tfds.load("mslr_web/10k_fold1")`
ds = tfds.load("mslr_web")
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 136), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
doc_id 텐서 (없음,) int64
float_features 텐서 (없음, 136) float64
상표 텐서 (없음,) float64
query_id 텍스트
@article{DBLP:journals/corr/QinL13,
  author    = {Tao Qin and Tie{-}Yan Liu},
  title     = {Introducing {LETOR} 4.0 Datasets},
  journal   = {CoRR},
  volume    = {abs/1306.2597},
  year      = {2013},
  url       = {http://arxiv.org/abs/1306.2597},
  timestamp = {Mon, 01 Jul 2013 20:31:25 +0200},
  biburl    = {http://dblp.uni-trier.de/rec/bib/journals/corr/QinL13},
  bibsource = {dblp computer science bibliography, http://dblp.org}
}

mslr_web/10k_fold1(기본 구성)

  • 다운로드 크기 : 1.15 GiB

  • 데이터 세트 크기 : 310.08 MiB

  • 분할 :

나뉘다
'test' 2,000
'train' 6,000
'vali' 2,000

mslr_web/10k_fold2

  • 다운로드 크기 : 1.15 GiB

  • 데이터 세트 크기 : 310.08 MiB

  • 분할 :

나뉘다
'test' 2,000
'train' 6,000
'vali' 2,000

mslr_web/10k_fold3

  • 다운로드 크기 : 1.15 GiB

  • 데이터 세트 크기 : 310.08 MiB

  • 분할 :

나뉘다
'test' 2,000
'train' 6,000
'vali' 2,000

mslr_web/10k_fold4

  • 다운로드 크기 : 1.15 GiB

  • 데이터 세트 크기 : 310.08 MiB

  • 분할 :

나뉘다
'test' 2,000
'train' 6,000
'vali' 2,000

mslr_web/10k_fold5

  • 다운로드 크기 : 1.15 GiB

  • 데이터 세트 크기 : 310.08 MiB

  • 분할 :

나뉘다
'test' 2,000
'train' 6,000
'vali' 2,000

mslr_web/30k_fold1

  • 다운로드 크기 : 3.59 GiB

  • 데이터 세트 크기 : 964.09 MiB

  • 분할 :

나뉘다
'test' 6,306
'train' 18,919
'vali' 6,306

mslr_web/30k_fold2

  • 다운로드 크기 : 3.59 GiB

  • 데이터 세트 크기 : 964.09 MiB

  • 분할 :

나뉘다
'test' 6,307
'train' 18,918
'vali' 6,306

mslr_web/30k_fold3

  • 다운로드 크기 : 3.59 GiB

  • 데이터 세트 크기 : 964.09 MiB

  • 분할 :

나뉘다
'test' 6,306
'train' 18,918
'vali' 6,307

mslr_web/30k_fold4

  • 다운로드 크기 : 3.59 GiB

  • 데이터 세트 크기 : 964.09 MiB

  • 분할 :

나뉘다
'test' 6,306
'train' 18,919
'vali' 6,306

mslr_web/30k_fold5

  • 다운로드 크기 : 3.59 GiB

  • 데이터 세트 크기 : 964.09 MiB

  • 분할 :

나뉘다
'test' 6,306
'train' 18,919
'vali' 6,306