ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

mslr_web

  • รายละเอียด:

MSLR-WEB เป็นชุดข้อมูล Learning-to-Rank ขนาดใหญ่สองชุดที่เผยแพร่โดย Microsoft Research ชุดข้อมูลแรก (เรียกว่า "30k") มีการสืบค้น 30,000 รายการ และชุดข้อมูลที่สอง (เรียกว่า "10k") มีการสืบค้น 10,000 รายการ ชุดข้อมูลแต่ละชุดประกอบด้วยคู่คิวรี-เอกสารที่แสดงเป็นเวกเตอร์ของคุณลักษณะและป้ายกำกับการตัดสินความเกี่ยวข้องที่สอดคล้องกัน

คุณสามารถระบุว่าจะใช้ชุดข้อมูลเวอร์ชัน "10k" หรือ "30k" และพับที่สอดคล้องกันดังนี้:

ds = tfds.load("mslr_web/30k_fold1")

ถ้าเพียง แต่ mslr_web ถูกระบุ mslr_web/10k_fold1 ตัวเลือกที่ถูกเลือกโดยค่าเริ่มต้น:

# This is the same as `tfds.load("mslr_web/10k_fold1")`
ds = tfds.load("mslr_web")
FeaturesDict({
    'bm25_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'bm25_body': Tensor(shape=(None,), dtype=tf.float64),
    'bm25_title': Tensor(shape=(None,), dtype=tf.float64),
    'bm25_url': Tensor(shape=(None,), dtype=tf.float64),
    'bm25_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'boolean_model_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'boolean_model_body': Tensor(shape=(None,), dtype=tf.float64),
    'boolean_model_title': Tensor(shape=(None,), dtype=tf.float64),
    'boolean_model_url': Tensor(shape=(None,), dtype=tf.float64),
    'boolean_model_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'covered_query_term_number_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'covered_query_term_number_body': Tensor(shape=(None,), dtype=tf.float64),
    'covered_query_term_number_title': Tensor(shape=(None,), dtype=tf.float64),
    'covered_query_term_number_url': Tensor(shape=(None,), dtype=tf.float64),
    'covered_query_term_number_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'covered_query_term_ratio_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'covered_query_term_ratio_body': Tensor(shape=(None,), dtype=tf.float64),
    'covered_query_term_ratio_title': Tensor(shape=(None,), dtype=tf.float64),
    'covered_query_term_ratio_url': Tensor(shape=(None,), dtype=tf.float64),
    'covered_query_term_ratio_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'idf_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'idf_body': Tensor(shape=(None,), dtype=tf.float64),
    'idf_title': Tensor(shape=(None,), dtype=tf.float64),
    'idf_url': Tensor(shape=(None,), dtype=tf.float64),
    'idf_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'inlink_number': Tensor(shape=(None,), dtype=tf.float64),
    'label': Tensor(shape=(None,), dtype=tf.float64),
    'length_of_url': Tensor(shape=(None,), dtype=tf.float64),
    'lmir_abs_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'lmir_abs_body': Tensor(shape=(None,), dtype=tf.float64),
    'lmir_abs_title': Tensor(shape=(None,), dtype=tf.float64),
    'lmir_abs_url': Tensor(shape=(None,), dtype=tf.float64),
    'lmir_abs_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'lmir_dir_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'lmir_dir_body': Tensor(shape=(None,), dtype=tf.float64),
    'lmir_dir_title': Tensor(shape=(None,), dtype=tf.float64),
    'lmir_dir_url': Tensor(shape=(None,), dtype=tf.float64),
    'lmir_dir_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'lmir_jm_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'lmir_jm_body': Tensor(shape=(None,), dtype=tf.float64),
    'lmir_jm_title': Tensor(shape=(None,), dtype=tf.float64),
    'lmir_jm_url': Tensor(shape=(None,), dtype=tf.float64),
    'lmir_jm_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'max_of_stream_length_normalized_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'max_of_stream_length_normalized_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
    'max_of_stream_length_normalized_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
    'max_of_stream_length_normalized_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
    'max_of_stream_length_normalized_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'max_of_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'max_of_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
    'max_of_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
    'max_of_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
    'max_of_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'max_of_tf_idf_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'max_of_tf_idf_body': Tensor(shape=(None,), dtype=tf.float64),
    'max_of_tf_idf_title': Tensor(shape=(None,), dtype=tf.float64),
    'max_of_tf_idf_url': Tensor(shape=(None,), dtype=tf.float64),
    'max_of_tf_idf_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'mean_of_stream_length_normalized_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'mean_of_stream_length_normalized_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
    'mean_of_stream_length_normalized_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
    'mean_of_stream_length_normalized_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
    'mean_of_stream_length_normalized_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'mean_of_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'mean_of_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
    'mean_of_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
    'mean_of_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
    'mean_of_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'mean_of_tf_idf_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'mean_of_tf_idf_body': Tensor(shape=(None,), dtype=tf.float64),
    'mean_of_tf_idf_title': Tensor(shape=(None,), dtype=tf.float64),
    'mean_of_tf_idf_url': Tensor(shape=(None,), dtype=tf.float64),
    'mean_of_tf_idf_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'min_of_stream_length_normalized_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'min_of_stream_length_normalized_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
    'min_of_stream_length_normalized_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
    'min_of_stream_length_normalized_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
    'min_of_stream_length_normalized_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'min_of_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'min_of_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
    'min_of_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
    'min_of_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
    'min_of_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'min_of_tf_idf_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'min_of_tf_idf_body': Tensor(shape=(None,), dtype=tf.float64),
    'min_of_tf_idf_title': Tensor(shape=(None,), dtype=tf.float64),
    'min_of_tf_idf_url': Tensor(shape=(None,), dtype=tf.float64),
    'min_of_tf_idf_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'number_of_slash_in_url': Tensor(shape=(None,), dtype=tf.float64),
    'outlink_number': Tensor(shape=(None,), dtype=tf.float64),
    'page_rank': Tensor(shape=(None,), dtype=tf.float64),
    'quality_score': Tensor(shape=(None,), dtype=tf.float64),
    'quality_score_2': Tensor(shape=(None,), dtype=tf.float64),
    'query_url_click_count': Tensor(shape=(None,), dtype=tf.float64),
    'site_rank': Tensor(shape=(None,), dtype=tf.float64),
    'stream_length_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'stream_length_body': Tensor(shape=(None,), dtype=tf.float64),
    'stream_length_title': Tensor(shape=(None,), dtype=tf.float64),
    'stream_length_url': Tensor(shape=(None,), dtype=tf.float64),
    'stream_length_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'sum_of_stream_length_normalized_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'sum_of_stream_length_normalized_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
    'sum_of_stream_length_normalized_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
    'sum_of_stream_length_normalized_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
    'sum_of_stream_length_normalized_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'sum_of_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'sum_of_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
    'sum_of_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
    'sum_of_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
    'sum_of_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'sum_of_tf_idf_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'sum_of_tf_idf_body': Tensor(shape=(None,), dtype=tf.float64),
    'sum_of_tf_idf_title': Tensor(shape=(None,), dtype=tf.float64),
    'sum_of_tf_idf_url': Tensor(shape=(None,), dtype=tf.float64),
    'sum_of_tf_idf_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'url_click_count': Tensor(shape=(None,), dtype=tf.float64),
    'url_dwell_time': Tensor(shape=(None,), dtype=tf.float64),
    'variance_of_stream_length_normalized_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'variance_of_stream_length_normalized_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
    'variance_of_stream_length_normalized_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
    'variance_of_stream_length_normalized_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
    'variance_of_stream_length_normalized_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'variance_of_term_frequency_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'variance_of_term_frequency_body': Tensor(shape=(None,), dtype=tf.float64),
    'variance_of_term_frequency_title': Tensor(shape=(None,), dtype=tf.float64),
    'variance_of_term_frequency_url': Tensor(shape=(None,), dtype=tf.float64),
    'variance_of_term_frequency_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'variance_of_tf_idf_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'variance_of_tf_idf_body': Tensor(shape=(None,), dtype=tf.float64),
    'variance_of_tf_idf_title': Tensor(shape=(None,), dtype=tf.float64),
    'variance_of_tf_idf_url': Tensor(shape=(None,), dtype=tf.float64),
    'variance_of_tf_idf_whole_document': Tensor(shape=(None,), dtype=tf.float64),
    'vector_space_model_anchor': Tensor(shape=(None,), dtype=tf.float64),
    'vector_space_model_body': Tensor(shape=(None,), dtype=tf.float64),
    'vector_space_model_title': Tensor(shape=(None,), dtype=tf.float64),
    'vector_space_model_url': Tensor(shape=(None,), dtype=tf.float64),
    'vector_space_model_whole_document': Tensor(shape=(None,), dtype=tf.float64),
})
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • รูป ( tfds.show_examples ): ไม่ได้รับการสนับสนุน

  • อ้างอิง:

@article{DBLP:journals/corr/QinL13,
  author    = {Tao Qin and Tie{-}Yan Liu},
  title     = {Introducing {LETOR} 4.0 Datasets},
  journal   = {CoRR},
  volume    = {abs/1306.2597},
  year      = {2013},
  url       = {http://arxiv.org/abs/1306.2597},
  timestamp = {Mon, 01 Jul 2013 20:31:25 +0200},
  biburl    = {http://dblp.uni-trier.de/rec/bib/journals/corr/QinL13},
  bibsource = {dblp computer science bibliography, http://dblp.org}
}

mslr_web/10k_fold1 (การกำหนดค่าเริ่มต้น)

  • ขนาดการดาวน์โหลด: 1.15 GiB

  • ขนาดชุด: 381.58 MiB

  • แยก:

แยก ตัวอย่าง
'test' 2,000
'train' 6,000
'vali' 2,000

mslr_web/10k_fold2

  • ขนาดการดาวน์โหลด: 1.15 GiB

  • ขนาดชุด: 381.58 MiB

  • แยก:

แยก ตัวอย่าง
'test' 2,000
'train' 6,000
'vali' 2,000

mslr_web/10k_fold3

  • ขนาดการดาวน์โหลด: 1.15 GiB

  • ขนาดชุด: 381.58 MiB

  • แยก:

แยก ตัวอย่าง
'test' 2,000
'train' 6,000
'vali' 2,000

mslr_web/10k_fold4

  • ขนาดการดาวน์โหลด: 1.15 GiB

  • ขนาดชุด: 381.58 MiB

  • แยก:

แยก ตัวอย่าง
'test' 2,000
'train' 6,000
'vali' 2,000

mslr_web/10k_fold5

  • ขนาดการดาวน์โหลด: 1.15 GiB

  • ขนาดชุด: 381.58 MiB

  • แยก:

แยก ตัวอย่าง
'test' 2,000
'train' 6,000
'vali' 2,000

mslr_web/30k_fold1

  • ขนาดการดาวน์โหลด: 3.59 GiB

  • ขนาดชุด: 1.17 GiB

  • แยก:

แยก ตัวอย่าง
'test' 6,306
'train' 18,919
'vali' 6,306

mslr_web/30k_fold2

  • ขนาดการดาวน์โหลด: 3.59 GiB

  • ขนาดชุด: 1.17 GiB

  • แยก:

แยก ตัวอย่าง
'test' 6,307
'train' 18,918
'vali' 6,306

mslr_web/30k_fold3

  • ขนาดการดาวน์โหลด: 3.59 GiB

  • ขนาดชุด: 1.17 GiB

  • แยก:

แยก ตัวอย่าง
'test' 6,306
'train' 18,918
'vali' 6,307

mslr_web/30k_fold4

  • ขนาดการดาวน์โหลด: 3.59 GiB

  • ขนาดชุด: 1.17 GiB

  • แยก:

แยก ตัวอย่าง
'test' 6,306
'train' 18,919
'vali' 6,306

mslr_web/30k_fold5

  • ขนาดการดาวน์โหลด: 3.59 GiB

  • ขนาดชุด: 1.17 GiB

  • แยก:

แยก ตัวอย่าง
'test' 6,306
'train' 18,919
'vali' 6,306