- תיאור :
MSLR-WEB הם שני מערכי נתונים בקנה מידה גדול של למידה לדירוג שפורסמו על ידי Microsoft Research. מערך הנתונים הראשון (הנקרא "30k") מכיל 30,000 שאילתות ומערך הנתונים השני (הנקרא "10k") מכיל 10,000 שאילתות. כל מערך נתונים מורכב מזוגות שאילתה-מסמכים המיוצגים כווקטורים של תכונה ותוויות שיפוט רלוונטיות מתאימות.
אתה יכול לציין אם להשתמש בגרסת "10k" או "30k" של מערך הנתונים, ובקיפול מתאים, באופן הבא:
ds = tfds.load("mslr_web/30k_fold1")
אם מצוין רק mslr_web
, האפשרות mslr_web/10k_fold1
נבחרה כברירת מחדל:
# This is the same as `tfds.load("mslr_web/10k_fold1")`
ds = tfds.load("mslr_web")
דף הבית : https://www.microsoft.com/en-us/research/project/mslr/
קוד מקור :
tfds.ranking.mslr_web.MslrWeb
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
שמור אוטומטי במטמון ( תיעוד ): לא
תכונות :
FeaturesDict({
'bm25_anchor': Tensor(shape=(None,), dtype=tf.float64),
'bm25_body': Tensor(shape=(None,), dtype=tf.float64),
'bm25_title': Tensor(shape=(None,), dtype=tf.float64),
'bm25_url': Tensor(shape=(None,), dtype=tf.float64),
'bm25_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'boolean_model_anchor': Tensor(shape=(None,), dtype=tf.float64),
'boolean_model_body': Tensor(shape=(None,), dtype=tf.float64),
'boolean_model_title': Tensor(shape=(None,), dtype=tf.float64),
'boolean_model_url': Tensor(shape=(None,), dtype=tf.float64),
'boolean_model_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'covered_query_term_number_anchor': Tensor(shape=(None,), dtype=tf.float64),
'covered_query_term_number_body': Tensor(shape=(None,), dtype=tf.float64),
'covered_query_term_number_title': Tensor(shape=(None,), dtype=tf.float64),
'covered_query_term_number_url': Tensor(shape=(None,), dtype=tf.float64),
'covered_query_term_number_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'covered_query_term_ratio_anchor': Tensor(shape=(None,), dtype=tf.float64),
'covered_query_term_ratio_body': Tensor(shape=(None,), dtype=tf.float64),
'covered_query_term_ratio_title': Tensor(shape=(None,), dtype=tf.float64),
'covered_query_term_ratio_url': Tensor(shape=(None,), dtype=tf.float64),
'covered_query_term_ratio_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'idf_anchor': Tensor(shape=(None,), dtype=tf.float64),
'idf_body': Tensor(shape=(None,), dtype=tf.float64),
'idf_title': Tensor(shape=(None,), dtype=tf.float64),
'idf_url': Tensor(shape=(None,), dtype=tf.float64),
'idf_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'inlink_number': Tensor(shape=(None,), dtype=tf.float64),
'label': Tensor(shape=(None,), dtype=tf.float64),
'length_of_url': Tensor(shape=(None,), dtype=tf.float64),
'lmir_abs_anchor': Tensor(shape=(None,), dtype=tf.float64),
'lmir_abs_body': Tensor(shape=(None,), dtype=tf.float64),
'lmir_abs_title': Tensor(shape=(None,), dtype=tf.float64),
'lmir_abs_url': Tensor(shape=(None,), dtype=tf.float64),
'lmir_abs_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'lmir_dir_anchor': Tensor(shape=(None,), dtype=tf.float64),
'lmir_dir_body': Tensor(shape=(None,), dtype=tf.float64),
'lmir_dir_title': Tensor(shape=(None,), dtype=tf.float64),
'lmir_dir_url': Tensor(shape=(None,), dtype=tf.float64),
'lmir_dir_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'lmir_jm_anchor': Tensor(shape=(None,), dtype=tf.float64),
'lmir_jm_body': Tensor(shape=(None,), dtype=tf.float64),
'lmir_jm_title': Tensor(shape=(None,), dtype=tf.float64),
'lmir_jm_url': Tensor(shape=(None,), dtype=tf.float64),
'lmir_jm_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'max_of_stream_length_normalized_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
'max_of_stream_length_normalized_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
'max_of_stream_length_normalized_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
'max_of_stream_length_normalized_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
'max_of_stream_length_normalized_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'max_of_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
'max_of_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
'max_of_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
'max_of_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
'max_of_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'max_of_tf_idf_anchor': Tensor(shape=(None,), dtype=tf.float64),
'max_of_tf_idf_body': Tensor(shape=(None,), dtype=tf.float64),
'max_of_tf_idf_title': Tensor(shape=(None,), dtype=tf.float64),
'max_of_tf_idf_url': Tensor(shape=(None,), dtype=tf.float64),
'max_of_tf_idf_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'mean_of_stream_length_normalized_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
'mean_of_stream_length_normalized_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
'mean_of_stream_length_normalized_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
'mean_of_stream_length_normalized_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
'mean_of_stream_length_normalized_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'mean_of_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
'mean_of_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
'mean_of_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
'mean_of_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
'mean_of_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'mean_of_tf_idf_anchor': Tensor(shape=(None,), dtype=tf.float64),
'mean_of_tf_idf_body': Tensor(shape=(None,), dtype=tf.float64),
'mean_of_tf_idf_title': Tensor(shape=(None,), dtype=tf.float64),
'mean_of_tf_idf_url': Tensor(shape=(None,), dtype=tf.float64),
'mean_of_tf_idf_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'min_of_stream_length_normalized_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
'min_of_stream_length_normalized_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
'min_of_stream_length_normalized_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
'min_of_stream_length_normalized_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
'min_of_stream_length_normalized_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'min_of_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
'min_of_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
'min_of_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
'min_of_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
'min_of_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'min_of_tf_idf_anchor': Tensor(shape=(None,), dtype=tf.float64),
'min_of_tf_idf_body': Tensor(shape=(None,), dtype=tf.float64),
'min_of_tf_idf_title': Tensor(shape=(None,), dtype=tf.float64),
'min_of_tf_idf_url': Tensor(shape=(None,), dtype=tf.float64),
'min_of_tf_idf_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'number_of_slash_in_url': Tensor(shape=(None,), dtype=tf.float64),
'outlink_number': Tensor(shape=(None,), dtype=tf.float64),
'page_rank': Tensor(shape=(None,), dtype=tf.float64),
'quality_score': Tensor(shape=(None,), dtype=tf.float64),
'quality_score_2': Tensor(shape=(None,), dtype=tf.float64),
'query_url_click_count': Tensor(shape=(None,), dtype=tf.float64),
'site_rank': Tensor(shape=(None,), dtype=tf.float64),
'stream_length_anchor': Tensor(shape=(None,), dtype=tf.float64),
'stream_length_body': Tensor(shape=(None,), dtype=tf.float64),
'stream_length_title': Tensor(shape=(None,), dtype=tf.float64),
'stream_length_url': Tensor(shape=(None,), dtype=tf.float64),
'stream_length_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'sum_of_stream_length_normalized_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
'sum_of_stream_length_normalized_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
'sum_of_stream_length_normalized_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
'sum_of_stream_length_normalized_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
'sum_of_stream_length_normalized_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'sum_of_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
'sum_of_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
'sum_of_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
'sum_of_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
'sum_of_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'sum_of_tf_idf_anchor': Tensor(shape=(None,), dtype=tf.float64),
'sum_of_tf_idf_body': Tensor(shape=(None,), dtype=tf.float64),
'sum_of_tf_idf_title': Tensor(shape=(None,), dtype=tf.float64),
'sum_of_tf_idf_url': Tensor(shape=(None,), dtype=tf.float64),
'sum_of_tf_idf_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'url_click_count': Tensor(shape=(None,), dtype=tf.float64),
'url_dwell_time': Tensor(shape=(None,), dtype=tf.float64),
'variance_of_stream_length_normalized_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
'variance_of_stream_length_normalized_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
'variance_of_stream_length_normalized_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
'variance_of_stream_length_normalized_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
'variance_of_stream_length_normalized_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'variance_of_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
'variance_of_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
'variance_of_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
'variance_of_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
'variance_of_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'variance_of_tf_idf_anchor': Tensor(shape=(None,), dtype=tf.float64),
'variance_of_tf_idf_body': Tensor(shape=(None,), dtype=tf.float64),
'variance_of_tf_idf_title': Tensor(shape=(None,), dtype=tf.float64),
'variance_of_tf_idf_url': Tensor(shape=(None,), dtype=tf.float64),
'variance_of_tf_idf_whole_document': Tensor(shape=(None,), dtype=tf.float64),
'vector_space_model_anchor': Tensor(shape=(None,), dtype=tf.float64),
'vector_space_model_body': Tensor(shape=(None,), dtype=tf.float64),
'vector_space_model_title': Tensor(shape=(None,), dtype=tf.float64),
'vector_space_model_url': Tensor(shape=(None,), dtype=tf.float64),
'vector_space_model_whole_document': Tensor(shape=(None,), dtype=tf.float64),
})
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{DBLP:journals/corr/QinL13,
author = {Tao Qin and Tie{-}Yan Liu},
title = {Introducing {LETOR} 4.0 Datasets},
journal = {CoRR},
volume = {abs/1306.2597},
year = {2013},
url = {http://arxiv.org/abs/1306.2597},
timestamp = {Mon, 01 Jul 2013 20:31:25 +0200},
biburl = {http://dblp.uni-trier.de/rec/bib/journals/corr/QinL13},
bibsource = {dblp computer science bibliography, http://dblp.org}
}
mslr_web/10k_fold1 (תצורת ברירת המחדל)
גודל הורדה :
1.15 GiB
גודל ערכת נתונים:
381.58 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- דוגמאות ( tfds.as_dataframe ):
mslr_web/10k_fold2
גודל הורדה :
1.15 GiB
גודל ערכת נתונים:
381.58 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- דוגמאות ( tfds.as_dataframe ):
mslr_web/10k_fold3
גודל הורדה :
1.15 GiB
גודל ערכת נתונים:
381.58 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- דוגמאות ( tfds.as_dataframe ):
mslr_web/10k_fold4
גודל הורדה :
1.15 GiB
גודל ערכת נתונים:
381.58 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- דוגמאות ( tfds.as_dataframe ):
mslr_web/10k_fold5
גודל הורדה :
1.15 GiB
גודל ערכת נתונים:
381.58 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- דוגמאות ( tfds.as_dataframe ):
mslr_web/30k_fold1
גודל הורדה :
3.59 GiB
גודל מערך נתונים :
1.17 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 6,306 |
'train' | 18,919 |
'vali' | 6,306 |
- דוגמאות ( tfds.as_dataframe ):
mslr_web/30k_fold2
גודל הורדה :
3.59 GiB
גודל מערך נתונים :
1.17 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 6,307 |
'train' | 18,918 |
'vali' | 6,306 |
- דוגמאות ( tfds.as_dataframe ):
mslr_web/30k_fold3
גודל הורדה :
3.59 GiB
גודל מערך נתונים :
1.17 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 6,306 |
'train' | 18,918 |
'vali' | 6,307 |
- דוגמאות ( tfds.as_dataframe ):
mslr_web/30k_fold4
גודל הורדה :
3.59 GiB
גודל מערך נתונים :
1.17 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 6,306 |
'train' | 18,919 |
'vali' | 6,306 |
- דוגמאות ( tfds.as_dataframe ):
mslr_web/30k_fold5
גודל הורדה :
3.59 GiB
גודל מערך נתונים :
1.17 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 6,306 |
'train' | 18,919 |
'vali' | 6,306 |
- דוגמאות ( tfds.as_dataframe ):