yahoo_ltrc

  • توضیحات :

مجموعه داده یاهو Learning to Rank Challenge (که "C14" نیز نامیده می شود) یک مجموعه داده یادگیری به رتبه است که توسط یاهو منتشر شده است. مجموعه داده شامل جفت‌های پرس و جو-سند است که به عنوان بردارهای ویژگی و برچسب‌های قضاوت مربوطه نشان داده می‌شوند.

مجموعه داده شامل دو نسخه است:

  • set1 : شامل 709877 جفت پرس و جو-سند.
  • set2 : شامل 172870 جفت پرس و جو-سند.

می توانید تعیین کنید که آیا از نسخه set1 یا set2 مجموعه داده به صورت زیر استفاده شود:

ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")

اگر فقط yahoo_ltrc مشخص شده باشد، گزینه yahoo_ltrc/set1 به طور پیش فرض انتخاب می شود:

# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
  • صفحه اصلی : https://research.yahoo.com/datasets

  • کد منبع : tfds.ranking.yahoo_ltrc.YahooLTRC

  • نسخه ها :

    • 1.0.0 : انتشار اولیه.
    • 1.1.0 (پیش فرض): شناسه های پرس و جو و سند را اضافه کنید.
  • اندازه دانلود : Unknown size

  • دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir (پیش‌فرض ~/tensorflow_datasets/downloads/manual/ ):
    درخواست دسترسی به مجموعه داده C14 Yahoo Learning To Rank Challenge در https://research.yahoo.com/datasets فایل dataset.tgz دانلود شده را استخراج کرده و فایل ltrc_yahoo.tar.bz2 را در manual_dir/ قرار دهید.

  • کلیدهای نظارت شده (به as_supervised doc مراجعه کنید): None

  • شکل ( tfds.show_examples ): پشتیبانی نمی شود.

  • نقل قول :

@inproceedings{chapelle2011yahoo,
  title={Yahoo! learning to rank challenge overview},
  author={Chapelle, Olivier and Chang, Yi},
  booktitle={Proceedings of the learning to rank challenge},
  pages={1--24},
  year={2011},
  organization={PMLR}
}

yahoo_ltrc/set1 (پیکربندی پیش فرض)

  • حجم مجموعه داده : 795.39 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 6983
'train' 19944
'vali' 2994
  • ساختار ویژگی :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 699), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
doc_id تانسور (هیچ یک،) int64
float_features تانسور (هیچ، 699) float64
برچسب تانسور (هیچ یک،) float64
query_id متن رشته

yahoo_ltrc/set2

  • حجم مجموعه داده : 194.92 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 3798
'train' 1266
'vali' 1266
  • ساختار ویژگی :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 700), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
doc_id تانسور (هیچ یک،) int64
float_features تانسور (هیچ، 700) float64
برچسب تانسور (هیچ یک،) float64
query_id متن رشته