קריטיאו

  • תיאור :

ערכת נתונים של Criteo Uplift Modeling

מערך נתונים זה שוחרר יחד עם המאמר: "A Large Scale Benchmark for Uplift Modeling" Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI Lab), Massih-Reza Amini (LIG, Grenoble INP)

עבודה זו פורסמה ב: AdKDD 2018 Workshop, בשיתוף עם KDD 2018.

תיאור הנתונים

מערך נתונים זה נבנה על ידי הרכבת נתונים הנובעים ממספר מבחני אינקרמנטליות, הליך ניסוי אקראי מסוים שבו חלק אקראי מהאוכלוסייה מונע ממוקד על ידי פרסום. הוא מורכב מ-25 מיליון שורות, כל אחת מייצגת משתמש עם 11 תכונות, מחוון טיפול ו-2 תוויות (ביקורים והמרות).

שדות

להלן תיאור מפורט של השדות (הם מופרדים בפסיקים בקובץ):

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: ערכי תכונה (צפוף, צף)
  • טיפול: קבוצת טיפול (1 = מטופל, 0 = ביקורת)
  • המרה: האם התרחשה המרה עבור משתמש זה (בינארי, תווית)
  • ביקור: האם התרחש ביקור עבור משתמש זה (בינארי, תווית)
  • חשיפה: השפעת הטיפול, האם המשתמש נחשף ביעילות (בינארי)

דמויות מפתח

  • פורמט: CSV
  • גודל: 459MB (דחוס)
  • שורות: 25,309,483
  • שיעור ביקור ממוצע: .04132
  • שיעור המרה ממוצע: .00229
  • יחס טיפול: .846

משימות

מערך הנתונים נאסף והוכן מתוך מחשבה על חיזוי העלאה כמשימה העיקרית. בנוסף אנו יכולים לחזות שימושים קשורים כגון אך לא רק:

  • אמת מידה להסקה סיבתית
  • דוגמנות עילוי
  • אינטראקציות בין תכונות וטיפול
  • הטרוגניות של הטיפול
  • אמת מידה לשיטות סיבתיות תצפיתיות

  • דף הבית : https://ailab.criteo.com/criteo-uplift-prediction-dataset/

  • קוד מקור : tfds.recommendation.criteo.Criteo

  • גרסאות :

    • 1.0.0 (ברירת מחדל): שחרור ראשוני.
  • גודל הורדה : 297.00 MiB

  • גודל מערך נתונים : 3.55 GiB

  • שמור אוטומטי במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'train' 13,979,592
  • מבנה תכונה :
FeaturesDict({
    'conversion': tf.bool,
    'exposure': tf.bool,
    'f0': tf.float32,
    'f1': tf.float32,
    'f10': tf.float32,
    'f11': tf.float32,
    'f2': tf.float32,
    'f3': tf.float32,
    'f4': tf.float32,
    'f5': tf.float32,
    'f6': tf.float32,
    'f7': tf.float32,
    'f8': tf.float32,
    'f9': tf.float32,
    'treatment': tf.int64,
    'visit': tf.bool,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
הֲמָרָה מוֹתֵחַ tf.bool
חשיפה מוֹתֵחַ tf.bool
f0 מוֹתֵחַ tf.float32
f1 מוֹתֵחַ tf.float32
f10 מוֹתֵחַ tf.float32
f11 מוֹתֵחַ tf.float32
f2 מוֹתֵחַ tf.float32
f3 מוֹתֵחַ tf.float32
f4 מוֹתֵחַ tf.float32
f5 מוֹתֵחַ tf.float32
f6 מוֹתֵחַ tf.float32
f7 מוֹתֵחַ tf.float32
f8 מוֹתֵחַ tf.float32
f9 מוֹתֵחַ tf.float32
יַחַס מוֹתֵחַ tf.int64
לְבַקֵר מוֹתֵחַ tf.bool
  • מפתחות בפיקוח (ראה as_supervised doc ): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • איור ( tfds.show_examples ): לא נתמך.

  • דוגמאות ( tfds.as_dataframe ):

  • ציטוט :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}