- 설명 :
Istella 데이터 세트는 Istella에서 공개한 3개의 대규모 Learning-to-Rank 데이터 세트입니다. 각 데이터 세트는 기능 벡터로 표시되는 쿼리-문서 쌍과 해당 관련성 판단 레이블로 구성됩니다.
데이터 세트에는 세 가지 버전이 포함되어 있습니다.
-
main
("Istella LETOR"): 10,454,629개의 쿼리-문서 쌍을 포함합니다. -
s
("Istella-S LETOR"): 3,408,630개의 쿼리-문서 쌍을 포함합니다. -
x
("Istella-X LETOR"): 26,791,447개의 쿼리-문서 쌍을 포함합니다.
다음과 같이 데이터 세트의 main
버전, s
또는 x
버전을 사용할지 여부를 지정할 수 있습니다.
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
istella
만 지정된 경우 기본적으로 istella/main
옵션이 선택됩니다.
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
소스 코드 :
tfds.ranking.istella.Istella
버전 :
-
1.0.0
: 최초 릴리스. -
1.0.1
: float64를 지원하도록 직렬화를 수정합니다. -
1.1.0
: 기능을 하나의 'float_features' 기능으로 묶습니다. -
1.2.0
(기본값): 쿼리 및 문서 식별자를 추가합니다.
-
자동 캐시 ( 문서 ): 아니요
기능 구조 :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
doc_id | 텐서 | (없음,) | int64 | |
float_features | 텐서 | (없음, 220) | float64 | |
상표 | 텐서 | (없음,) | float64 | |
query_id | 텍스트 | 끈 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main(기본 구성)
다운로드 크기 :
1.20 GiB
데이터세트 크기 :
1.12 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 9,799 |
'train' | 23,219 |
- 예 ( tfds.as_dataframe ):
istella/s
다운로드 크기 :
450.26 MiB
데이터 세트 크기 :
421.88 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 6,562 |
'train' | 19,245 |
'vali' | 7,211 |
- 예 ( tfds.as_dataframe ):
이스텔라/x
다운로드 크기 :
4.42 GiB
데이터세트 크기 :
2.46 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- 예 ( tfds.as_dataframe ):
- 설명 :
Istella 데이터 세트는 Istella에서 공개한 3개의 대규모 Learning-to-Rank 데이터 세트입니다. 각 데이터 세트는 기능 벡터로 표시되는 쿼리-문서 쌍과 해당 관련성 판단 레이블로 구성됩니다.
데이터 세트에는 세 가지 버전이 포함되어 있습니다.
-
main
("Istella LETOR"): 10,454,629개의 쿼리-문서 쌍을 포함합니다. -
s
("Istella-S LETOR"): 3,408,630개의 쿼리-문서 쌍을 포함합니다. -
x
("Istella-X LETOR"): 26,791,447개의 쿼리-문서 쌍을 포함합니다.
다음과 같이 데이터 세트의 main
버전, s
또는 x
버전을 사용할지 여부를 지정할 수 있습니다.
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
istella
만 지정된 경우 기본적으로 istella/main
옵션이 선택됩니다.
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
소스 코드 :
tfds.ranking.istella.Istella
버전 :
-
1.0.0
: 최초 릴리스. -
1.0.1
: float64를 지원하도록 직렬화를 수정합니다. -
1.1.0
: 기능을 하나의 'float_features' 기능으로 묶습니다. -
1.2.0
(기본값): 쿼리 및 문서 식별자를 추가합니다.
-
자동 캐시 ( 문서 ): 아니요
기능 구조 :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
doc_id | 텐서 | (없음,) | int64 | |
float_features | 텐서 | (없음, 220) | float64 | |
상표 | 텐서 | (없음,) | float64 | |
query_id | 텍스트 | 끈 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main(기본 구성)
다운로드 크기 :
1.20 GiB
데이터세트 크기 :
1.12 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 9,799 |
'train' | 23,219 |
- 예 ( tfds.as_dataframe ):
istella/s
다운로드 크기 :
450.26 MiB
데이터 세트 크기 :
421.88 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 6,562 |
'train' | 19,245 |
'vali' | 7,211 |
- 예 ( tfds.as_dataframe ):
이스텔라/x
다운로드 크기 :
4.42 GiB
데이터세트 크기 :
2.46 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- 예 ( tfds.as_dataframe ):